Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
As empresas que constroem melhores benchmarks crescerão mais rápido do que as empresas que constroem modelos melhores
A IA já pode resolver competições de xadrez, exames e codificação, mas ainda não pode reservar uma reserva de jantar de forma confiável
O gargalo passou da inteligência para a avaliação

27 de ago. de 2025
Este é um dos melhores posts de 2025 do pesquisador da OpenAI @ShunyuYao12.
"estamos no intervalo da IA"
é um manual do que mais importa na pesquisa de IA e no ecossistema de startups, e como se preparar melhor para isso.
por décadas, a pesquisa de IA se concentrou em algoritmos e novos modelos para superar os benchmarks.
mas algo importante mudou o jogo: "RL finalmente generaliza".
a "receita" de trabalho: pré-treinamento massivo de linguagem (anteriores) + escala + raciocínio como ação dentro de um loop RL.
o resultado dessa escalada de referência. O jogo muda: da resolução de problemas para a definição dos problemas certos. a avaliação torna-se o centro do palco.
O principal benchmark agora é o "problema da utilidade". Os benchmarks realmente não se traduzem bem em tarefas do mundo real.
Portanto, este é o manual da segunda metade: invente configurações de avaliação vinculadas à utilidade real; Em seguida, aplique a receita para vencer sob essas novas regras.
em RL, o trio principal é ambiente, algoritmos e priores. Passamos muito tempo nos melhores algos, mas os algos se adaptam ao ambiente em que nascem.
para a "segunda metade", avaliação = design de ambiente: crie configurações mais próximas da realidade (human-in-the-loop, não-IID, sequencial/com memória) para gerar utilidade real, não apenas vitórias de benchmark.

368
Melhores
Classificação
Favoritos