o3 Pro en ARC-AGI Resultados de evaluación semiprivada ARCO-AGI-1: * Bajo: 44%, $1.64/tarea * Medio: 57%, $3.18/tarea * Alto: 59%, $4.16/tarea ARCO-AGI-2: * Todos los esfuerzos de razonamiento: <5%, $4-7/tarea Conclusiones: * O3-PRO en línea con el rendimiento de O3 * El nuevo precio de o3 establece la ARC-AGI-1 Frontier
Para tener en cuenta, o3 Pro *no* es el mismo modelo que probamos en diciembre '24 (o3-preview) OpenAI lo ha confirmado explícitamente. Ver tweet de referencia para más información
ARC Prize
ARC Prize17 abr 2025
Clarificación del rendimiento ARC-AGI de o3 OpenAI ha confirmado: * El o3 lanzado es un modelo diferente al que probamos en diciembre de 2024 * Todos los niveles de cómputo de O3 publicados son más pequeños que la versión que probamos * El o3 liberado no fue entrenado con datos ARC-AGI, ni siquiera el conjunto de trenes * El o3 lanzado está ajustado para el uso de chat/producto, lo que presenta tanto fortalezas como debilidades en ARC-AGI Lo que hará el Premio ARC: * Volveremos a probar el o3 publicado (todos los niveles de cómputo) y publicaremos los resultados actualizados. Las puntuaciones anteriores se etiquetarán como "vista previa" * Probaremos y publicaremos los resultados de o4-mini tan pronto como sea posible * Probaremos o3-pro una vez que esté disponible
Los resultados de O3 se han actualizado para reflejar la reducción del 80% en el precio
La novedad en el gráfico son los puntos de datos para o3 (alto razonamiento) y o4-mini (alto razonamiento). Anteriormente se excluían debido a los tiempos de espera del modelo. El nuevo "modo de fondo" de OpenAI nos ha permitido procesar estos modelos en configuraciones de alta computación.
Ver tabla de clasificación: Reproducir resultados:
108.72K