Compartimos un adelanto de nuestra formación en curso en SWE-1.6. Mejora significativamente respecto a SWE-1.5 estando entrenado después del mismo modelo preentrenado, y funciona igual de rápido a 950 tok/s. En SWE-Bench Pro supera a los mejores modelos de código abierto. El modelo de vista previa sigue mostrando algunos comportamientos indeseables como sobrepensar y auto-verificación excesiva, que pretendemos mejorar. Estamos implementando el acceso anticipado a un pequeño grupo de usuarios en Windsurf.
Refinamos nuestra receta de RL y escalamos nuestra infraestructura para desbloquear dos órdenes de magnitud más de computación que la utilizada para entrenar SWE-1.5. Hemos escalado significativamente el número de entornos de RL y vemos mejoras continuas con más formación en RL.
Ha sido divertido observar cómo el modelo aprende a pensar más y a iterar para obtener más turnos en problemas difíciles de SWE-Bench Pro. Por otro lado, observamos sobrepensar y auto-verificación excesiva en nuestra propia alimentación para perros. Encontrar el equilibrio adecuado entre la interactividad y el pensamiento a largo plazo es un área activa de investigación.
Optimizamos nuestra pila de entrenamiento para que funcionara 6 veces más rápido que hace 3 meses. Por ejemplo, nuestro algoritmo ahora tolera una mayor estalactancia, lo que nos permitió utilizar plenamente nuestros motores de inferencia. En nuestra entrada del blog (), compartimos más detalles sobre nuestras optimizaciones de entrenamiento y cómo gestionamos la asignación de GPU para RL asíncrono.
127