DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Wir teilen eine frühe Vorschau auf unseren laufenden SWE-1.6 Trainingslauf. Es verbessert sich erheblich im Vergleich zu SWE-1.5, während es auf demselben vortrainierten Modell nachtrainiert wurde - und es läuft ebenso schnell mit 950 tok/s. Auf SWE-Bench Pro übertrifft es die besten Open-Source-Modelle. Das Vorschau-Modell zeigt weiterhin einige unerwünschte Verhaltensweisen wie Überdenken und übermäßige Selbstverifizierung, die wir verbessern möchten. Wir führen einen frühen Zugang für eine kleine Gruppe von Nutzern in Windsurf ein.

Wir haben unser RL-Rezept verfeinert und unsere Infrastruktur skaliert, um zwei Größenordnungen mehr Rechenleistung freizuschalten als bei der Ausbildung von SWE-1.5 verwendet wurde. Wir haben die Anzahl der RL-Umgebungen erheblich erhöht und sehen weiterhin Verbesserungen mit weiterem RL-Training.

Es war interessant zu beobachten, wie das Modell lernt, intensiver zu denken und bei schwierigen SWE-Bench Pro-Problemen mehr Durchläufe zu machen. Auf der anderen Seite beobachten wir übermäßiges Nachdenken und übertriebene Selbstverifikation in unserem eigenen Dogfooding. Die richtige Balance zwischen Interaktivität und langfristigem Denken zu finden, ist ein aktives Forschungsfeld.

Wir haben unseren Trainings-Stack optimiert, um 6x schneller zu laufen als vor 3 Monaten. Zum Beispiel toleriert unser Algorithmus jetzt höhere Staleness, was es uns ermöglicht hat, unsere Inferenz-Engines vollständig zu nutzen. In unserem Blogbeitrag () teilen wir weitere Details zu unseren Trainingsoptimierungen und wie wir die GPU-Zuweisung für asynchrone RL verwalten.

124

Top

Ranking

Favoriten