As empresas que constroem melhores benchmarks crescerão mais rápido do que as empresas que constroem modelos melhores A IA já pode resolver competições de xadrez, exames e codificação, mas ainda não pode reservar uma reserva de jantar de forma confiável O gargalo passou da inteligência para a avaliação
ℏεsam
ℏεsam27 de ago. de 2025
Este é um dos melhores posts de 2025 do pesquisador da OpenAI @ShunyuYao12. "estamos no intervalo da IA" é um manual do que mais importa na pesquisa de IA e no ecossistema de startups, e como se preparar melhor para isso. por décadas, a pesquisa de IA se concentrou em algoritmos e novos modelos para superar os benchmarks. mas algo importante mudou o jogo: "RL finalmente generaliza". a "receita" de trabalho: pré-treinamento massivo de linguagem (anteriores) + escala + raciocínio como ação dentro de um loop RL. o resultado dessa escalada de referência. O jogo muda: da resolução de problemas para a definição dos problemas certos. a avaliação torna-se o centro do palco. O principal benchmark agora é o "problema da utilidade". Os benchmarks realmente não se traduzem bem em tarefas do mundo real. Portanto, este é o manual da segunda metade: invente configurações de avaliação vinculadas à utilidade real; Em seguida, aplique a receita para vencer sob essas novas regras. em RL, o trio principal é ambiente, algoritmos e priores. Passamos muito tempo nos melhores algos, mas os algos se adaptam ao ambiente em que nascem. para a "segunda metade", avaliação = design de ambiente: crie configurações mais próximas da realidade (human-in-the-loop, não-IID, sequencial/com memória) para gerar utilidade real, não apenas vitórias de benchmark.
368