Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Onderzoek naar redeneren @OpenAI | Co-creatie van Libratus/Pluribus bovenmenselijke poker-AI's, CICERO Diplomacy AI en OpenAI o3 / o1 / 🍓 redeneermodellen
Het kan moeilijk zijn om de "AGI" te "voelen" totdat je een AI een domein ziet beheersen waar je diep om geeft. Iedereen zal op een ander moment zijn Lee Sedol-moment hebben.

Dave White22 jul, 08:59
het openai IMO-nieuws heeft me dit weekend behoorlijk geraakt
ik zit nog steeds in de acute fase van de impact, denk ik
ik beschouw mezelf als een professionele wiskundige (een karakterisering waar sommige echte professionele wiskundigen misschien bezwaar tegen hebben, maar mijn feestje, mijn regels) en ik denk niet dat ik een enkele imo-vraag kan beantwoorden
ok, ja, imo is zijn eigen kleine atletische subsectie van wiskunde waarvoor ik niet heb getraind, enz. enz., maar. als ik iemand in het wild ontmoet die een IMO-goud heeft, update ik onmiddellijk naar "deze persoon is veel beter in wiskunde dan ik ben"
nu kunnen een heleboel robots het. als iemand die veel van zijn identiteit en zijn echte leven heeft opgebouwd rond "goed zijn in wiskunde," is het een klap in de maag. het is een soort sterven.
zoals, op een dag ontdek je dat je met honden kunt praten. het is leuk en interessant, dus je doet het meer, leert de intricaties van hun taal en hun diepste gebruiken. je leert dat andere mensen verrast zijn door wat je kunt doen. je hebt nooit echt in de pas gelopen, maar je leert dat mensen je vermogen waarderen en je om je heen willen hebben om hen te helpen. de honden waarderen je ook, de enige biped die het echt begrijpt. je assembleert voor jezelf een soort van erbij horen. dan word je op een dag wakker en de universele hondvertaler is te koop bij walmart voor $4,99
de IMO-resultaten zijn niet echt nieuws. in feite, als je naar de METR-agent taaklengte in de tijd plot kijkt, denk ik dat agents in staat zijn om ~ 1,5 uur problemen op te lossen precies op tijd komt. dus op de een of andere manier zouden we niet verrast moeten zijn. en inderdaad, het lijkt erop dat meerdere bedrijven hetzelfde resultaat hebben behaald. het is gewoon... de stijgende vloed stijgt zo snel als het is gestegen
natuurlijk is de rouw om mijn persoonlijke identiteit als wiskundige (en/of productief lid van de samenleving) het kleinste deel van dit verhaal
vermenigvuldig die rouw met *iedere* wiskundige, met elke coder, misschien elke kenniswerker, elke kunstenaar... over de komende jaren... het is een iets groter verhaal
en natuurlijk, daarbuiten, is er de angst voor de echte dood, waar ik misschien later meer op in ga.
dit pakket -- rouw om relevantie, rouw om leven, rouw om wat ik heb gekend -- is niet uniek voor het AI-tijdperk of iets dergelijks. ik denk dat het een standaardding is als je het einde van je carrière of het einde van je leven nadert. het zou gewoon kunnen zijn dat dat voor velen van ons iets eerder komt, allemaal tegelijk.
ik vraag me af of we er klaar voor zijn
131,15K
Gefeliciteerd aan het GDM-team met hun IMO-resultaat! Ik denk dat hun parallelle succes benadrukt hoe snel de vooruitgang in AI is. Hun aanpak was iets anders dan de onze, maar ik denk dat dat laat zien dat er veel onderzoeksrichtingen zijn voor verdere vooruitgang. Enkele gedachten over ons model en onze resultaten 🧵
379,3K
Hun weddenschap stond formele wiskunde AI-systemen (zoals AlphaProof) toe. In 2022 dacht bijna niemand dat een LLM tegen 2025 op IMO-goudniveau zou kunnen zijn.

Nat McAleese19 jul, 17:47
We zien veel snellere AI-vooruitgang dan **Paul Christiano** en **Yudkowsky** hadden voorspeld, die goud in 2025 op respectievelijk 8% en 16% hadden, met methoden die algemener zijn dan verwacht.
164,33K
Het kost ons een paar maanden om de experimentele onderzoeksgrens om te zetten in een product. Maar de vooruitgang is zo snel dat een paar maanden een groot verschil in mogelijkheden kan betekenen.

Ravid Shwartz Ziv19 jul, 09:17
Dus, alle modellen presteren slechter dan mensen op de nieuwe vragen van de Internationale Wiskunde Olympiade, en Grok-4 is vooral slecht daarin, zelfs met de beste uit-n selectie? Ongelooflijk!

128,36K
Sheryl (@sherylhsu02) was onze eerste aanwinst voor het multi-agent team. Binnen enkele maanden na haar komst hielp ze dit mogelijk te maken. We hebben zoveel geluk dat we haar in het team hebben!

Sheryl Hsu19 jul, 15:52
Het was magisch om het model deze IMO-problemen te zien oplossen en een gouden niveau van prestaties te bereiken. Een paar gedachten 🧵
114,35K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste