Stiamo condividendo un'anteprima anticipata del nostro attuale allenamento SWE-1.6. Migliora significativamente rispetto a SWE-1.5 pur essendo stato post-addestrato sullo stesso modello pre-addestrato - e funziona altrettanto velocemente a 950 tok/s. Su SWE-Bench Pro supera i migliori modelli open-source. Il modello di anteprima mostra ancora alcuni comportamenti indesiderati come il pensare troppo e l'eccessiva auto-verifica, che intendiamo migliorare. Stiamo distribuendo l'accesso anticipato a un piccolo sottoinsieme di utenti in Windsurf.
Abbiamo perfezionato la nostra ricetta RL e scalato la nostra infrastruttura per sbloccare due ordini di grandezza in più di calcolo rispetto a quanto utilizzato per addestrare SWE-1.5. Abbiamo significativamente aumentato il numero di ambienti RL e vediamo continui miglioramenti con ulteriori addestramenti RL.
È stato divertente osservare il modello che impara a pensare di più e a iterare per più turni su problemi difficili di SWE-Bench Pro. D'altra parte, osserviamo un eccesso di riflessione e una verifica eccessiva di noi stessi nel nostro dogfooding. Capire il giusto equilibrio tra interattività e pensiero a lungo termine è un'area di ricerca attiva.
Abbiamo ottimizzato il nostro stack di addestramento per funzionare 6 volte più velocemente rispetto a 3 mesi fa. Ad esempio, il nostro algoritmo ora tollera una maggiore obsolescenza, il che ci ha permesso di sfruttare appieno i nostri motori di inferenza. Nel nostro post sul blog (), condividiamo ulteriori dettagli sulle nostre ottimizzazioni di addestramento e su come gestiamo l'allocazione della GPU per l'RL asincrono.
119