Vi kan være på vei inn i en plottvri i OpenAI vs. DeepMind IMO-sagaen. Så nettopp et innlegg fra Joseph Myers (involvert i matematikkolympiaden siden 1992): IMO-komiteen skal ha bedt AI-laboratorier om ikke å publisere resultater før 7 dager etter avslutningsseremonien – av respekt for menneskelige deltakere (se innlegget mitt i går) og sannsynligvis for å gi tid til riktig verifisering av AI-innsendinger og formater. Ifølge Joseph samarbeidet ikke OpenAI med IMO for å teste modellen deres, og ingen av de 91 offisielle IMO-koordinatorene var involvert i å gradere løsningene. I mellomtiden ser det ut til at DeepMind følger reglene og tålmodig venter på sin tur. For kontekst: IMO har 6 problemer, hver verdt 7 poeng. Årets gullgrense er 35 poeng. Selv et lite fradrag kan slå OpenAI ned til sølv. Og fra min lesning av deres skriverier, kan noen deler reise spørsmål - og muligens koste poeng. Terence Tao påpekte også at selv om problemene forblir de samme, er testformater viktige. En student som ikke ville fått en bronse under standardforhold, kan finne gull med et modifisert oppsett – noe som reiser reelle spørsmål om hva «å løse IMO» betyr for AI. Neste uke kan bli krydret. Følg med.
Jasper
Jasper20. juli, 03:15
DeepMind fikk en gullmedalje på IMO fredag ettermiddag. Men de måtte vente på at markedsføringen skulle godkjenne tweeten – til mandag. @OpenAI delte sin første klokken 1 på lørdag og stjal rampelyset. I dette spillet > fart byråkrati. Gå glipp av øyeblikket, mist fortellingen.
@swierk De fant 3 tidligere IMO-medaljevinnere som ikke var offisielle IMO-koordinatorer: «For hvert problem graderte tre tidligere IMO-medaljevinnere uavhengig av hverandre modellens innsendte bevis, med poengsummene ferdigstilt etter enstemmig konsensus.»
Alexander Wei
Alexander Wei19. juli, 15:50
6/N I vår evaluering løste modellen 5 av de 6 problemene på 2025 IMO. For hver oppgave graderte tre tidligere IMO-medaljevinnere uavhengig av hverandre modellens innsendte bevis, med poengsummer ferdigstilt etter enstemmig konsensus. Modellen tjente 35/42 poeng totalt, nok til gull! 🥇
Mitt forrige innlegg om IMO-komiteens forespørsel
Jasper
Jasper20. juli, 05:42
Presisering: Jeg har blitt fortalt av noen hos Google at IMO-resultatene deres fortsatt blir verifisert internt. Når det er gjort, planlegger de å dele dem offisielt – nysgjerrige på å se tilnærmingen deres. En annen kilde nevnte at IMO-komiteen ba om ikke å diskutere AI-involvering offentlig innen en uke etter avslutningsseremonien. Ting ble bare litt mer interessant 🧐
@GoogleDeepMind overmenneskelige resonneringsteamleder @lmthang reiste også spørsmålet om OpenAI ville vinne et gull eller sølv
Jasper
Jasper20. juli, 05:42
Presisering: Jeg har blitt fortalt av noen hos Google at IMO-resultatene deres fortsatt blir verifisert internt. Når det er gjort, planlegger de å dele dem offisielt – nysgjerrige på å se tilnærmingen deres. En annen kilde nevnte at IMO-komiteen ba om ikke å diskutere AI-involvering offentlig innen en uke etter avslutningsseremonien. Ting ble bare litt mer interessant 🧐
@GoogleDeepMind overmenneskelige resonnementteamleder @lmthang som bygde AlphaGeometry reiste også spørsmålet om OpenAI ville vinne en gull- eller sølvmedalje
Thang Luong
Thang Luong13 timer siden
Ja, det er en offisiell merkeretningslinje fra IMO-arrangørene som ikke er tilgjengelig eksternt. Uten evalueringen basert på den retningslinjen, kan ingen medaljekrav gjøres. Med ett poeng trukket fra, er det et sølv, ikke gull.
@swierk ja, det er flere og flere spørsmål reist av matematikk- og AI-folk
Jasper
Jasper9 timer siden
@GoogleDeepMind overmenneskelige resonnementteamleder @lmthang som bygde AlphaGeometry reiste også spørsmålet om OpenAI ville vinne en gull- eller sølvmedalje
87,08K