Sdílíme předběžnou ukázku našeho probíhajícího výcviku SWE-1.6. Výrazně vylepšuje SWE-1.5, přičemž je posttrénován na stejném předtrénovaném modelu – a běží stejně rychle při 950 tok/s. Na SWE-Bench Pro překonává špičkové open-source modely. Model náhledu stále vykazuje některé nežádoucí chování, jako je přemýšlení a nadměrné ověřování sebekontroly, což se snažíme zlepšit. Zavádíme předběžný přístup pro malou skupinu uživatelů ve Windsurfu.
Vylepšili jsme náš RL recept a rozšířili infrastrukturu tak, abychom odemkli o dva řády více výpočetní kapacity, než kolik bylo použito při trénování SWE-1.5. Výrazně jsme škálovali počet RL prostředí a pokračují zlepšení s dalším RL tréninkem.
Bylo zábavné sledovat, jak se model učí přemýšlet tvrději a iterovat pro další tahy na těžkých SWE-Bench Pro problémech. Na druhou stranu pozorujeme přemýšlení a nadměrné sebeověřování při našem vlastním krmení. Hledání správné rovnováhy mezi interaktivitou a dlouhodobým myšlením je aktivní oblastí výzkumu.
Optimalizovali jsme náš tréninkový stack tak, aby běžel 6x rychleji než před 3 měsíci. Například náš algoritmus nyní toleruje vyšší zastaralost, což nám umožnilo plně využít naše inferenční enginy. V našem blogovém příspěvku (), sdílíme více detailů o našich optimalizacích tréninku a o tom, jak spravujeme alokaci GPU pro asynchronní RL.
66