As empresas que estão a construir melhores referências crescerão mais rapidamente do que as empresas que estão a construir melhores modelos A IA já consegue resolver xadrez, exames e concursos de programação, mas ainda não consegue reservar uma mesa para o jantar de forma fiável O gargalo mudou de inteligência para avaliação
ℏεsam
ℏεsam27/08/2025
este é um dos melhores posts de blog de 2025 do pesquisador da openai @ShunyuYao12. "estamos no intervalo da IA," é um manual do que mais importará na pesquisa em IA e no ecossistema de startups, e como se preparar da melhor forma para isso. durante décadas, a pesquisa em IA focou em algoritmos e novos modelos para superar os benchmarks. mas algo importante mudou o jogo: "RL finalmente generaliza." a "receita" que funciona: pré-treinamento massivo de linguagem (prioridades) + escala + raciocínio como ação dentro de um loop de RL. o resultado disso é a escalada nos benchmarks. o jogo muda: de resolver problemas para definir os problemas certos. a avaliação se torna o centro das atenções. o benchmark central agora é o "problema de utilidade". benchmarks não se traduzem bem em tarefas do mundo real. então este é o manual da segunda metade: inventar configurações de avaliação ligadas à utilidade real; depois aplicar a receita para vencer sob essas novas regras. o trio chave em RL é ambiente, algoritmos e prioridades. passamos tanto tempo nos melhores algoritmos, mas os algoritmos se ajustam demais ao ambiente em que nasceram. para a "segunda metade", avaliação = design de ambiente: construir configurações mais próximas da realidade (humano no loop, não-IID, sequencial/com memória) para gerar utilidade real, não apenas vitórias em benchmarks.
377