Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jaamme varhaisen ennakkokatsauksen käynnissä olevasta SWE-1.6-koulutusjaksostamme.
Se parantaa merkittävästi SWE-1.5:ttä, kun se on jälkikoulutuksessa samalla esikoulutetulla mallilla – ja se toimii yhtä nopeasti 950 tok/s nopeudella. SWE-Bench Prossa se ylittää parhaat avoimen lähdekoodin mallit.
Esikatselumalli osoittaa edelleen joitakin ei-toivottuja käyttäytymismalleja, kuten liiallista ajattelua ja liiallista itsevarmistusta, joita pyrimme parantamaan. Otamme varhaisen pääsyn käyttöön pienelle osalle Windsurfin käyttäjiä.

Hiomme RL-reseptiämme ja skaalauduimme infrastruktuuriamme avaamaan kaksi kertaluokkaa enemmän laskentatehoa kuin mitä SWE-1.5:n kouluttamiseen käytettiin. Laajensimme merkittävästi RL-ympäristöjen määrää ja näemme jatkuvaa kehitystä RL-koulutuksen myötä.

On ollut hauskaa seurata, kuinka malli oppii ajattelemaan tarkemmin ja iteroimaan enemmän käännöksiä vaikeissa SWE-Bench Pro -ongelmissa. Toisaalta havaitsemme liiallista ajattelua ja liiallista itsevarmistusta omassa koiranruoassamme.
Oikean tasapainon löytäminen interaktiivisuuden ja pitkän aikavälin ajattelun välillä on aktiivinen tutkimusalue.

Optimoimme harjoituspinon toimimaan 6 kertaa nopeammin kuin kolme kuukautta sitten. Esimerkiksi algoritmimme sietää nyt korkeampaa vanhentumista, mikä mahdollisti päättelymoottoreiden täyden hyödyntämisen.
Blogikirjoituksessamme (), jaamme lisää yksityiskohtia koulutusoptimoinneistamme ja siitä, miten hallitsemme GPU:n allokaatiota asynkronisessa RL:ssä.

102
Johtavat
Rankkaus
Suosikit
