Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jasper
Medgründer og administrerende direktør @Hyperbolic_Labs. eks-@avax og eks-@citsecurities. Fullførte matematikk PhD i 2 år @UCBerkeley. Gullmedaljevinner i matematikkolympiaden. Høyeste utmerkelse @PKU1898
Vi kan være på vei inn i en plottvri i OpenAI vs. DeepMind IMO-sagaen.
Så nettopp et innlegg fra Joseph Myers (involvert i matematikkolympiaden siden 1992): IMO-komiteen skal ha bedt AI-laboratorier om ikke å publisere resultater før 7 dager etter avslutningsseremonien – av respekt for menneskelige deltakere (se innlegget mitt i går) og sannsynligvis for å gi tid til riktig verifisering av AI-innsendinger og formater.
Ifølge Joseph samarbeidet ikke OpenAI med IMO for å teste modellen deres, og ingen av de 91 offisielle IMO-koordinatorene var involvert i å gradere løsningene. I mellomtiden ser det ut til at DeepMind følger reglene og tålmodig venter på sin tur.
For kontekst:
IMO har 6 problemer, hver verdt 7 poeng. Årets gullgrense er 35 poeng. Selv et lite fradrag kan slå OpenAI ned til sølv. Og fra min lesning av deres skriverier, kan noen deler reise spørsmål - og muligens koste poeng.
Terence Tao påpekte også at selv om problemene forblir de samme, er testformater viktige. En student som ikke ville fått en bronse under standardforhold, kan finne gull med et modifisert oppsett – noe som reiser reelle spørsmål om hva «å løse IMO» betyr for AI.
Neste uke kan bli krydret. Følg med.


1,36K
Har nettopp fått fri fra jobb og prøvd Grok-4 på et topologiproblem. Det tok 9 minutter å tenke og ga deretter selvsikkert et rent, plausibelt, men helt feil svar 😅
Ikke tro at denne kvalifiserer som «dyktig fiendtlig». AI-modeller knuser benchmarks – men fortsatt en lang vei frem for ekte matematikk-AGI.



Elon Musk10. juli, 16:47
Grok 4 is at the point where it essentially never gets math/physics exam questions wrong, unless they are skillfully adversarial.
It can identify errors or ambiguities in questions, then fix the error in the question or answer each variant of an ambiguous question.
662,97K
Grok fikk full poengsum på AIME 🤯 Vi trenger definitivt en bedre matematisk benchmark for AI nå


xAI10. juli, 12:01
Vi introduserer Grok 4, verdens kraftigste AI-modell. Se direktesendingen nå:
2,96K
Fremtiden for AI er samarbeid

Yuchen Jin9. juli, 06:09
Sam Altman was asked how he felt about Zuck and Meta poaching OpenAI’s top talent.
“Fine... good...” he said.
Behind Jony Ive–designed glasses, I couldn’t see his eyes. But I could feel the pain.
It's not hard for Zuck to poach OpenAI talent, not just because he has the money, but because open-source AI is fulfilling the original OpenAI mission.
1,42K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til