Hoje, nós da @OpenAI alcançámos um marco que muitos consideravam a anos de distância: desempenho ao nível de medalha de ouro na IMO 2025 com um LLM de raciocínio geral—dentro dos mesmos limites de tempo que os humanos, sem ferramentas. Por mais notável que isso pareça, é ainda mais significativo do que o título 🧵
Alexander Wei
Alexander Wei19/07, 15:50
1/N Estou entusiasmado por compartilhar que o nosso mais recente LLM experimental de raciocínio da @OpenAI alcançou um desafio grandioso de longa data em IA: desempenho de nível medalha de ouro na competição de matemática mais prestigiada do mundo— as Olimpíadas Internacionais de Matemática (IMO).
Normalmente, para estes resultados de IA, como em Go/Dota/Poker/Diplomacia, os investigadores passam anos a desenvolver uma IA que domina um domínio específico e faz pouco mais. Mas este não é um modelo específico do IMO. É um LLM de raciocínio que incorpora novas técnicas experimentais de propósito geral.
Então, o que é diferente? Desenvolvemos novas técnicas que tornam os LLMs muito melhores em tarefas difíceis de verificar. Na minha opinião, os problemas eram o desafio perfeito para isso: as provas têm páginas de comprimento e levam horas para serem avaliadas por especialistas. Compare isso com o AIME, onde as respostas são simplesmente um inteiro de 0 a 999.
Além disso, este modelo pensa durante um *longo* tempo. o1 pensou por segundos. Pesquisa Profunda por minutos. Este pensa por horas. Importante, também é mais eficiente no seu raciocínio. E há muito espaço para aumentar ainda mais o cálculo e a eficiência durante o tempo de teste.
Noam Brown
Noam Brown13/09/2024
@OpenAI @rao2z @OpenAI's o1 pensa durante segundos, mas o nosso objetivo para versões futuras é que pensem durante horas, dias, até semanas. Os custos de inferência serão mais altos, mas que custo você pagaria por um novo medicamento contra o câncer? Por baterias inovadoras? Por uma prova da Hipótese de Riemann? A IA pode ser mais do que chatbots.
Vale a pena refletir sobre quão rápido tem sido o progresso da IA, especialmente em matemática. Em 2024, os laboratórios de IA estavam usando matemática de escola primária (GSM8K) como uma avaliação em seus lançamentos de modelos. Desde então, saturamos o benchmark de matemática (ensino secundário), depois o AIME, e agora estamos no ouro do IMO.
Para onde isto vai? Por mais rápido que tenha sido o progresso recente da IA, espero plenamente que a tendência continue. Importante, acho que estamos perto de a IA contribuir substancialmente para a descoberta científica. Há uma grande diferença entre a IA estar ligeiramente abaixo do desempenho humano de topo e estar ligeiramente acima.
Este foi um esforço de uma pequena equipe liderada por @alexwei_. Ele pegou uma ideia de pesquisa em que poucos acreditavam e usou-a para alcançar um resultado que ainda menos pensavam ser possível. Isso também não teria sido possível sem anos de pesquisa + engenharia de muitos na @OpenAI e na comunidade de IA mais ampla.
Quando se trabalha num laboratório de fronteira, geralmente sabe-se onde estão as capacidades de fronteira meses antes de qualquer outra pessoa. Mas este resultado é completamente novo, utilizando técnicas recentemente desenvolvidas. Foi uma surpresa até para muitos investigadores da OpenAI. Hoje, todos podem ver onde está a fronteira.
1,05M