un'altra fuga di notizie alpha. stessa tecnica che abbiamo usato per KernelBench. è un approccio universale nella sua forma più semplice. gli esempi sono tutto ciò di cui hai bisogno: ottieni un buon risultato o un singolo miglioramento, aggiungi al contesto, ottieni più buoni risultati con un contesto migliorato, aggiungi quelli al contesto, ad inf...
Tooliense
Tooliense22 lug, 11:19
Recentemente OpenAI e Google hanno raggiunto la medaglia d'oro IMO con i loro nuovi modelli sperimentali. Ma il nostro team ha raggiunto lo stesso livello con solo o4-mini-high e i nostri sistemi agenti. E ora lo stiamo rendendo open source. In particolare, abbiamo ottenuto miglioramenti incredibili con i benchmark USAMO. La linea di base era quasi 0, ma il nostro agente ha ottenuto una media del 90%. Inoltre, siamo riusciti a dimostrare teoricamente i recenti articoli di arxiv semplicemente fornendo l'idea chiave della ricerca.
non ha senso allenare modelli piccoli davvero... è meglio trovare il programma ideale da fornire alle macchine più grandi. se vuoi la migliore distribuzione di output, devi trovare la distribuzione di input ideale, come la pratica. puoi arrivarci da zero purché tu abbia un modo per classificare i tuoi output. la tecnica di questi ragazzi sembra però sovra-ingegnerizzata, potrebbe essere molto più semplice.
La prima generazione di KernelBench su o3-mini. Abbiamo semplicemente chiamato questo "auto-miglioramento."
Lewis
Lewis30 apr 2025
abbiamo un risultato SOTA non verificato su KernelBench con o3-mini e un nastro di esempi evolutivi: 208/250 accelerazioni dichiarate, di cui 3 per il Livello 4 (prev untouched). Sarei grato per qualsiasi aiuto nella revisione dei kernel KernelBench ottimizzati all'indirizzo . grazie a @anneouyang e Stanford's @ScalingIntelLab per aver accettato di recensirli.
3,31K