Recientemente, OpenAI y Google alcanzaron la medalla de oro IMO con sus nuevos modelos experimentales. Pero nuestro equipo alcanzó el mismo nivel con solo o4-mini-high y nuestros sistemas de agentes. Y ahora lo estamos haciendo de código abierto. Especialmente obtuvimos mejoras increíbles con los benchmarks de USAMO. La línea base era casi 0, pero nuestro agente obtuvo un promedio del 90%. También pudimos probar teóricamente los recientes artículos de arxiv simplemente dando la idea clave de investigación.
84,34K