Résultats de l’évaluation semi-privée o3 Pro on ARC-AGI ARC-AGI-1 : * Faible : 44 %, 1,64 $/tâche * Moyen : 57 %, 3,18 $/tâche * Élevé : 59 %, 4,16 $/tâche ARC-AGI-2 : * Tous les efforts de raisonnement : <5 %, 4 à 7 $/tâche À retenir : * O3-Pro en ligne avec O3 Performance * Le nouveau prix d’o3 fixe l’ARC-AGI-1 Frontier
À noter, o3 Pro n'est *pas* le même modèle que celui que nous avons testé en décembre 2024 (o3-preview) OpenAI a explicitement confirmé cela. Voir le tweet de référence pour plus d'informations.
ARC Prize
ARC Prize17 avr. 2025
Clarification des performances ARC-AGI d’o3 OpenAI a confirmé : * L’o3 sorti est un modèle différent de ce que nous avons testé en décembre 2024 * Tous les niveaux de calcul o3 publiés sont plus petits que la version que nous avons testée * L’o3 libéré n’a pas été entraîné sur les données ARC-AGI, pas même sur la rame * La version 3 d’o3 est adaptée à l’utilisation du chat et du produit, ce qui présente à la fois les forces et les faiblesses d’ARC-AGI. Ce que fera le Prix ARC : * Nous testerons à nouveau l’o3 publié (tous les niveaux de calcul) et publierons les résultats mis à jour. Les scores précédents seront étiquetés « aperçu » * Nous testerons et publierons les résultats d’o4-mini dès que possible * Nous testerons o3-pro dès qu’il sera disponible
Les résultats o3 ont été mis à jour pour refléter la réduction de 80 % du prix.
Nouveaux sur le graphique, des points de données pour o3 (Raisonnement élevé) et o4-mini (Raisonnement élevé). Ils avaient été précédemment exclus en raison de délais d'attente du modèle. Le nouveau « mode arrière-plan » d'OpenAI nous a permis de traiter ces modèles avec des paramètres de calcul élevés.
Voir le classement : Reproduire les résultats :
108,73K