o3 Pro em resultados de avaliação semi-privada ARC-AGI ARC-AGI-1: * Baixo: 44%, US$ 1,64/tarefa * Médio: 57%, US$ 3,18/tarefa * Alta: 59%, US$ 4,16/tarefa ARC-AGI-2: * Todos os esforços de raciocínio: <5%, US$ 4-7/tarefa Takeaways: * O3-Pro em linha com o desempenho do O3 * O novo preço do o3 define o ARC-AGI-1 Frontier
Para notar, o o3 Pro *não* é o mesmo modelo que testamos em dezembro de 24 (o3-preview) A OpenAI confirmou isso explicitamente. Veja o tweet de referência para obter mais informações
ARC Prize
ARC Prize17 de abr. de 2025
Clarifying o3’s ARC-AGI Performance OpenAI has confirmed: * The released o3 is a different model from what we tested in December 2024 * All released o3 compute tiers are smaller than the version we tested * The released o3 was not trained on ARC-AGI data, not even the train set * The released o3 is tuned for chat/product use, which introduces both strengths and weaknesses on ARC-AGI What ARC Prize will do: * We will re-test the released o3 (all compute tiers) and publish updated results. Prior scores will be labeled “preview” * We will test and release o4-mini results as soon as possible * We will test o3-pro once available
Os resultados do O3 foram atualizados para refletir a redução de 80% no preço
Novos no gráfico são os pontos de dados para o3 (raciocínio alto) e o4-mini (raciocínio alto). Eles foram excluídos anteriormente devido ao tempo limite do modelo. O novo 'modo em segundo plano' da OpenAI nos permitiu processar esses modelos em configurações de computação altas.
Veja a tabela de classificação: Reproduza os resultados:
108,77K