Recentemente OpenAI e Google hanno raggiunto la medaglia d'oro IMO con i loro nuovi modelli sperimentali. Ma il nostro team ha raggiunto lo stesso livello con solo o4-mini-high e i nostri sistemi agenti. E ora lo stiamo rendendo open source. In particolare, abbiamo ottenuto miglioramenti incredibili con i benchmark USAMO. La linea di base era quasi 0, ma il nostro agente ha ottenuto una media del 90%. Inoltre, siamo riusciti a dimostrare teoricamente i recenti articoli di arxiv semplicemente fornendo l'idea chiave della ricerca.
104,16K