SWE-bench Verified é o padrão ouro para avaliar agentes de codificação: 500 problemas do mundo real + testes da OpenAI. Parece à prova de balas? Quase. Mostramos a aprovação em seus testes unitários != verdade básica correspondente. Em nosso artigo da ACL, corrigimos avaliações com bugs: 24% dos agentes subiram ou desceram na tabela de classificação! 1/7
Exemplo: django PR-13933. O agente corrigiu uma mensagem de erro, mas interrompeu silenciosamente a execução normal. Todos os testes são verdes, enquanto o patch falharia na produção. 3/7
Para resolver os casos de teste insuficientes no SWE-bench, desenvolvemos o UTBoost, um gerador de casos de teste baseado em LLM para projetos Python em grande escala. Nos bastidores, o UTboost primeiro localiza o código relevante de maneira refinada (nível de arquivo -> nível de função -> nível de linha) e, em seguida, gera automaticamente testes no estilo pytest. 4/7
Dados os casos de teste gerados, verificamos sua exatidão e reavaliamos os agentes nas tabelas de classificação atuais do SWE-bench Lite e Verified: - SWE-bench Lite: +28,4% mais patches errados detectados - Banco SWE verificado: +15,7% - Classificações alteradas 40,9% (Lite) e 24,4% (Verificado) 5/7
Lição: Testar é difícil e ainda mais difícil quando a IA escreve o código. Os benchmarks devem evoluir com conjuntos mais fortes e em constante crescimento. Esperamos que o UTBoost seja um passo em direção a avaliações mais confiáveis. 6/7
Este é um trabalho conjunto com @BoshCavendish, @maxYuxuanZhu e @PinjiaHE 7/7
24,9K