DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Vi delar en tidig förhandsvisning av vår pågående SWE-1.6-träningsrunda. Den förbättrar SWE-1.5 avsevärt medan den eftertränas på samma förtränade modell – och den går lika snabbt med 950 tok/s. På SWE-Bench Pro överträffar den toppmodellerna för öppen källkod. Förhandsgranskningsmodellen uppvisar fortfarande vissa oönskade beteenden som överanalyserande och överdriven självverifiering, vilket vi strävar efter att förbättra. Vi rullar ut tidig tillgång till en liten del av användarna i Windsurf.

Vi förfinade vårt RL-recept och skalade upp vår infrastruktur för att låsa upp två storleksordningar mer beräkning än vad som användes för att träna SWE-1.5. Vi skalade avsevärt antalet RL-miljöer och ser fortsatta förbättringar med ytterligare RL-utbildning.

Det har varit roligt att observera modellen lära sig tänka hårdare och iterera för fler vändningar på svåra SWE-Bench Pro-problem. Å andra sidan observerar vi överanalyserande och överdriven självverifiering i vår egen hundmatning. Att hitta rätt balans mellan interaktivitet och långsiktigt tänkande är ett aktivt forskningsområde.

Vi optimerade vår träningsstack för att köra 6 gånger snabbare än för 3 månader sedan. Till exempel tolererar vår algoritm nu högre instängdhet, vilket gjorde att vi kunde utnyttja våra inferensmotorer fullt ut. I vårt blogginlägg (), delar vi mer information om våra träningsoptimeringar och hur vi hanterar GPU-allokering för asynkron RL.

72

Topp

Rankning

Favoriter