Estamos compartilhando uma prévia antecipada da nossa corrida de treinamento em andamento com o SWE-1.6. Ele melhora significativamente o SWE-1.5 enquanto é treinado no mesmo modelo pré-treinado – e roda igualmente rápido a 950 tok/s. No SWE-Bench Pro, ela supera os principais modelos open-source. O modelo de pré-visualização ainda apresenta alguns comportamentos indesejáveis, como pensar demais e auto-verificação excessiva, que buscamos melhorar. Estamos implementando acesso antecipado para um pequeno grupo de usuários no Windsurf.
Refinamos nossa receita de RL e escalamos nossa infraestrutura para desbloquear duas ordens de magnitude a mais de computação do que foi usada para treinar o SWE-1.5. Aumentamos significativamente o número de ambientes de RL e vemos melhorias contínuas com mais treinamento em RL.
Tem sido divertido observar o modelo aprendendo a pensar mais e iterar para mais turnos em problemas difíceis do SWE-Bench Pro. Por outro lado, observamos excesso de pensamento e auto-verificação excessiva na nossa própria alimentação de cães. Encontrar o equilíbrio certo entre interatividade e pensamento de longo prazo é uma área ativa de pesquisa.
Otimizamos nossa pilha de treinamento para rodar 6 vezes mais rápido do que há 3 meses. Por exemplo, nosso algoritmo agora tolera maior estagnação, o que nos permitiu utilizar plenamente nossos motores de inferência. Em nosso post no blog (), compartilhamos mais detalhes sobre nossas otimizações de treinamento e como gerenciamos a alocação de GPU para o RL assíncrono.
96