Împărtășim o previzualizare timpurie a cursului nostru de antrenament SWE-1.6 în curs. Îmbunătățește semnificativ față de SWE-1.5 în timp ce este post-antrenat pe același model pre-antrenat – și rulează la fel de rapid cu 950 tok/s. Pe SWE-Bench Pro depășește cele mai bune modele open-source. Modelul de previzualizare încă prezintă unele comportamente nedorite, cum ar fi gândirea excesivă și auto-verificarea excesivă, pe care ne propunem să le îmbunătățim. Implementăm acces timpuriu pentru un mic subset de utilizatori din Windsurf.
Ne-am rafinat rețeta RL și am scalat infrastructura pentru a debloca cu două ordine de mărime mai mult calcul decât a fost folosit pentru antrenarea SWE-1.5. Am extins semnificativ numărul de medii RL și vedem îmbunătățiri continue odată cu instruirea RL suplimentară.
A fost distractiv să observ modelul învățând să gândească mai intens și să itere pentru mai multe ture pe probleme dificile SWE-Bench Pro. Pe de altă parte, observăm supra-gândire și auto-verificare excesivă în propria noastră hrană pentru câini. Găsirea echilibrului potrivit între interactivitate și gândirea pe termen lung este un domeniu activ de cercetare.
Am optimizat stiva de antrenament să ruleze de 6 ori mai repede decât acum 3 luni. De exemplu, algoritmul nostru tolerează acum o stagnare mai mare, ceea ce ne-a permis să folosim pe deplin motoarele noastre de inferență. În postarea noastră de blog (), împărtășim mai multe detalii despre optimizările noastre de antrenament și despre modul în care gestionăm alocarea GPU-urilor pentru RL asincron.
68