Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sdílíme předběžnou ukázku našeho probíhajícího výcviku SWE-1.6.
Výrazně vylepšuje SWE-1.5, přičemž je posttrénován na stejném předtrénovaném modelu – a běží stejně rychle při 950 tok/s. Na SWE-Bench Pro překonává špičkové open-source modely.
Model náhledu stále vykazuje některé nežádoucí chování, jako je přemýšlení a nadměrné ověřování sebekontroly, což se snažíme zlepšit. Zavádíme předběžný přístup pro malou skupinu uživatelů ve Windsurfu.

Vylepšili jsme náš RL recept a rozšířili infrastrukturu tak, abychom odemkli o dva řády více výpočetní kapacity, než kolik bylo použito při trénování SWE-1.5. Výrazně jsme škálovali počet RL prostředí a pokračují zlepšení s dalším RL tréninkem.

Bylo zábavné sledovat, jak se model učí přemýšlet tvrději a iterovat pro další tahy na těžkých SWE-Bench Pro problémech. Na druhou stranu pozorujeme přemýšlení a nadměrné sebeověřování při našem vlastním krmení.
Hledání správné rovnováhy mezi interaktivitou a dlouhodobým myšlením je aktivní oblastí výzkumu.

Optimalizovali jsme náš tréninkový stack tak, aby běžel 6x rychleji než před 3 měsíci. Například náš algoritmus nyní toleruje vyšší zastaralost, což nám umožnilo plně využít naše inferenční enginy.
V našem blogovém příspěvku (), sdílíme více detailů o našich optimalizacích tréninku a o tom, jak spravujeme alokaci GPU pro asynchronní RL.

66
Top
Hodnocení
Oblíbené
