Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-bench Verified é o padrão ouro para avaliar agentes de codificação: 500 problemas do mundo real + testes da OpenAI. Parece à prova de balas? Quase.
Mostramos a aprovação em seus testes unitários != verdade básica correspondente. Em nosso artigo da ACL, corrigimos avaliações com bugs: 24% dos agentes subiram ou desceram na tabela de classificação!
1/7

Exemplo: django PR-13933. O agente corrigiu uma mensagem de erro, mas interrompeu silenciosamente a execução normal. Todos os testes são verdes, enquanto o patch falharia na produção.
3/7

Para resolver os casos de teste insuficientes no SWE-bench, desenvolvemos o UTBoost, um gerador de casos de teste baseado em LLM para projetos Python em grande escala. Nos bastidores, o UTboost primeiro localiza o código relevante de maneira refinada (nível de arquivo -> nível de função -> nível de linha) e, em seguida, gera automaticamente testes no estilo pytest.
4/7
Dados os casos de teste gerados, verificamos sua exatidão e reavaliamos os agentes nas tabelas de classificação atuais do SWE-bench Lite e Verified:
- SWE-bench Lite: +28,4% mais patches errados detectados
- Banco SWE verificado: +15,7%
- Classificações alteradas 40,9% (Lite) e 24,4% (Verificado)
5/7
Lição: Testar é difícil e ainda mais difícil quando a IA escreve o código. Os benchmarks devem evoluir com conjuntos mais fortes e em constante crescimento. Esperamos que o UTBoost seja um passo em direção a avaliações mais confiáveis.
6/7
Este é um trabalho conjunto com @BoshCavendish, @maxYuxuanZhu e @PinjiaHE
7/7
24,9K
Melhores
Classificação
Favoritos