Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro en ARC-AGI Resultados de evaluación semiprivada
ARCO-AGI-1:
* Bajo: 44%, $1.64/tarea
* Medio: 57%, $3.18/tarea
* Alto: 59%, $4.16/tarea
ARCO-AGI-2:
* Todos los esfuerzos de razonamiento: <5%, $4-7/tarea
Conclusiones:
* O3-PRO en línea con el rendimiento de O3
* El nuevo precio de o3 establece la ARC-AGI-1 Frontier
Para tener en cuenta, o3 Pro *no* es el mismo modelo que probamos en diciembre '24 (o3-preview)
OpenAI lo ha confirmado explícitamente. Ver tweet de referencia para más información

17 abr 2025
Clarificación del rendimiento ARC-AGI de o3
OpenAI ha confirmado:
* El o3 lanzado es un modelo diferente al que probamos en diciembre de 2024
* Todos los niveles de cómputo de O3 publicados son más pequeños que la versión que probamos
* El o3 liberado no fue entrenado con datos ARC-AGI, ni siquiera el conjunto de trenes
* El o3 lanzado está ajustado para el uso de chat/producto, lo que presenta tanto fortalezas como debilidades en ARC-AGI
Lo que hará el Premio ARC:
* Volveremos a probar el o3 publicado (todos los niveles de cómputo) y publicaremos los resultados actualizados. Las puntuaciones anteriores se etiquetarán como "vista previa"
* Probaremos y publicaremos los resultados de o4-mini tan pronto como sea posible
* Probaremos o3-pro una vez que esté disponible
Los resultados de O3 se han actualizado para reflejar la reducción del 80% en el precio
La novedad en el gráfico son los puntos de datos para o3 (alto razonamiento) y o4-mini (alto razonamiento). Anteriormente se excluían debido a los tiempos de espera del modelo.
El nuevo "modo de fondo" de OpenAI nos ha permitido procesar estos modelos en configuraciones de alta computación.
Ver tabla de clasificación:
Reproducir resultados:
108.72K
Populares
Ranking
Favoritas