Мы делимся ранним предварительным просмотром нашего текущего обучения SWE-1.6. Он значительно улучшает SWE-1.5, оставаясь при этом дообученным на той же предобученной модели - и работает так же быстро на 950 ток/с. На SWE-Bench Pro он превосходит лучшие открытые модели. Предварительная модель все еще демонстрирует некоторые нежелательные поведения, такие как чрезмерное размышление и избыточная самопроверка, которые мы стремимся улучшить. Мы предоставляем ранний доступ небольшой группе пользователей в Windsurf.
Мы усовершенствовали наш рецепт RL и масштабировали нашу инфраструктуру, чтобы разблокировать на два порядка больше вычислительных мощностей, чем использовалось для обучения SWE-1.5. Мы значительно увеличили количество RL-окружений и наблюдаем дальнейшие улучшения с дополнительным обучением RL.
Было интересно наблюдать, как модель учится думать глубже и проводить больше итераций по сложным задачам SWE-Bench Pro. С другой стороны, мы наблюдаем чрезмерное обдумывание и избыточную самопроверку в нашем собственном тестировании. Поиск правильного баланса между интерактивностью и долгосрочным мышлением является активной областью исследований.
Мы оптимизировали наш стек обучения, чтобы он работал в 6 раз быстрее, чем 3 месяца назад. Например, наш алгоритм теперь допускает большую устарелость, что позволило нам полностью использовать наши движки вывода. В нашем блоге () мы делимся более подробной информацией о наших оптимизациях обучения и о том, как мы управляем распределением GPU для асинхронного RL.
115