Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
As empresas que estão a construir melhores referências crescerão mais rapidamente do que as empresas que estão a construir melhores modelos
A IA já consegue resolver xadrez, exames e concursos de programação, mas ainda não consegue reservar uma mesa para o jantar de forma fiável
O gargalo mudou de inteligência para avaliação

27/08/2025
este é um dos melhores posts de blog de 2025 do pesquisador da openai @ShunyuYao12.
"estamos no intervalo da IA,"
é um manual do que mais importará na pesquisa em IA e no ecossistema de startups, e como se preparar da melhor forma para isso.
durante décadas, a pesquisa em IA focou em algoritmos e novos modelos para superar os benchmarks.
mas algo importante mudou o jogo: "RL finalmente generaliza."
a "receita" que funciona: pré-treinamento massivo de linguagem (prioridades) + escala + raciocínio como ação dentro de um loop de RL.
o resultado disso é a escalada nos benchmarks. o jogo muda: de resolver problemas para definir os problemas certos. a avaliação se torna o centro das atenções.
o benchmark central agora é o "problema de utilidade". benchmarks não se traduzem bem em tarefas do mundo real.
então este é o manual da segunda metade: inventar configurações de avaliação ligadas à utilidade real; depois aplicar a receita para vencer sob essas novas regras.
o trio chave em RL é ambiente, algoritmos e prioridades. passamos tanto tempo nos melhores algoritmos, mas os algoritmos se ajustam demais ao ambiente em que nasceram.
para a "segunda metade", avaliação = design de ambiente: construir configurações mais próximas da realidade (humano no loop, não-IID, sequencial/com memória) para gerar utilidade real, não apenas vitórias em benchmarks.

377
Top
Classificação
Favoritos