DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Estamos compartiendo una vista previa temprana de nuestra ejecución de entrenamiento SWE-1.6 en curso. Mejora significativamente sobre SWE-1.5 mientras se entrena posteriormente en el mismo modelo preentrenado - y funciona igual de rápido a 950 tok/s. En SWE-Bench Pro supera a los mejores modelos de código abierto. El modelo de vista previa aún exhibe algunos comportamientos indeseables como pensar en exceso y una auto-verificación excesiva, que buscamos mejorar. Estamos implementando acceso anticipado a un pequeño subconjunto de usuarios en Windsurf.

Hemos refinado nuestra receta de RL y escalado nuestra infraestructura para desbloquear dos órdenes de magnitud más de computación que la utilizada para entrenar SWE-1.5. Hemos escalado significativamente el número de entornos de RL y vemos mejoras continuas con un mayor entrenamiento de RL.

Ha sido divertido observar cómo el modelo aprende a pensar más intensamente y a iterar más veces en problemas difíciles de SWE-Bench Pro. Por otro lado, observamos un exceso de análisis y verificación excesiva en nuestra propia autoevaluación. Encontrar el equilibrio adecuado entre la interactividad y el pensamiento a largo plazo es un área activa de investigación.

Hemos optimizado nuestra pila de entrenamiento para que funcione 6 veces más rápido que hace 3 meses. Por ejemplo, nuestro algoritmo ahora tolera una mayor obsolescencia, lo que nos permitió utilizar completamente nuestros motores de inferencia. En nuestra publicación del blog (), compartimos más detalles sobre nuestras optimizaciones de entrenamiento y cómo gestionamos la asignación de GPU para RL asíncrono.

123

Parte superior

Clasificación

Favoritos