Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro en ARC-AGI Resultados de evaluación semiprivada
ARCO-AGI-1:
* Bajo: 44%, $1.64/tarea
* Medio: 57%, $3.18/tarea
* Alto: 59%, $4.16/tarea
ARCO-AGI-2:
* Todos los esfuerzos de razonamiento: <5%, $4-7/tarea
Conclusiones:
* O3-PRO en línea con el rendimiento de O3
* El nuevo precio de o3 establece la ARC-AGI-1 Frontier
Cabe destacar que o3 Pro *no* es el mismo modelo que probamos en diciembre de '24 (o3-preview)
OpenAI ha confirmado explícitamente esto. Consulta el tweet de referencia para más información.

17 abr 2025
Clarificación del rendimiento ARC-AGI de o3
OpenAI ha confirmado:
* El o3 lanzado es un modelo diferente al que probamos en diciembre de 2024
* Todos los niveles de cómputo de O3 publicados son más pequeños que la versión que probamos
* El o3 liberado no fue entrenado con datos ARC-AGI, ni siquiera el conjunto de trenes
* El o3 lanzado está ajustado para el uso de chat/producto, lo que presenta tanto fortalezas como debilidades en ARC-AGI
Lo que hará el Premio ARC:
* Volveremos a probar el o3 publicado (todos los niveles de cómputo) y publicaremos los resultados actualizados. Las puntuaciones anteriores se etiquetarán como "vista previa"
* Probaremos y publicaremos los resultados de o4-mini tan pronto como sea posible
* Probaremos o3-pro una vez que esté disponible
los resultados de o3 se han actualizado para reflejar la reducción del 80% en el precio
Nuevos en el gráfico son los puntos de datos para o3 (Razonamiento alto) y o4-mini (Razonamiento alto). Anteriormente fueron excluidos debido a los tiempos de espera del modelo.
El nuevo 'modo en segundo plano' de OpenAI nos ha permitido procesar estos modelos en configuraciones de alta computación.
Ver tabla de clasificación:
Reproducir resultados:
108,75K
Parte superior
Clasificación
Favoritos