Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Tweelingen - RL, CoT, meertaligheid. Senior Personeel RS @GoogleDeepMind MTV. 🇯🇵 -geboren 🇨🇳🇨🇦 . Vb.: @OpenAI (JP: @shanegJP)
Na JAREN van wachten en onzekerheid zijn de groene kaarten voor mijn familie goedgekeurd, en we zijn vorige week van Japan naar Silicon Valley verhuisd. Ik ben sinds 2012 af en toe in de Bay, maar dit is de meest opwindende tijd om hier te zijn. Ik ben enthousiast om me bij mijn geweldige collega's aan te sluiten en ASI te maken🔥

34,84K
Shane Gu heeft opnieuw gepost
🚨 Olympiade wiskunde + AI:
We hebben Google’s Gemini 2.5 Pro getest op de nieuwe IMO 2025 problemen. Met zorgvuldige aansturing en pipeline-ontwerp loste het 5 van de 6 op — opmerkelijk voor taken die diep inzicht en creativiteit vereisen.
Het model zou goud kunnen winnen! 🥇
#AI #Wiskunde #LLMs #IMO2025
303,65K
Aziaten: we zullen onze eigen rommel opruimen

Patrick Shen18 jul, 03:03
At their launch Cluely claimed it would kill 9 industries.
We're here to kill just one: cheating.
Meet Truely — the open-source tool that flags AI-assisted interviews in real time. Works with Zoom, Meets, Teams, and more.
The future of online interviews is here.
2,14K
Om tegen Aziaten te vechten, heb je Aziaten nodig

Patrick Shen18 jul, 03:03
Bij hun lancering beweerde Cluely dat het 9 industrieën zou doden.
Wij zijn hier om er slechts één te doden: bedrog.
Maak kennis met Truely — de open-source tool die AI-ondersteunde interviews in realtime markeert. Werkt met Zoom, Meets, Teams en meer.
De toekomst van online interviews is hier.
359
Waarom pre-trainings- en post-trainingsgroepen goed met elkaar moeten opschieten

David Mizrahi18 jul, 06:21
Excited to share our new work: “Language Models Improve When Pretraining Data Matches Target Tasks”
Yes, it sounds obvious (and it is!), but typically this only happens implicitly and indirectly: intuitively select data → benchmark → refine → repeat.
We wondered: what happens if we explicitly match pretraining data to benchmarks? The result is a dead simple approach that yields 2x+ compute multipliers over strong baselines and gives us a principled way to study how benchmark choices shape (and constrain!) model capabilities.
Bonus: extensive scaling laws from training 500+ models that reveal how optimal data selection evolves as models scale.
🧵 (1/14)

2,81K
Shane Gu heeft opnieuw gepost
Nieuwe blogpost over de asymmetrie van verificatie en de "wet van de verifier":
Asymmetrie van verificatie – het idee dat sommige taken veel gemakkelijker te verifiëren zijn dan op te lossen – wordt een belangrijk idee nu we RL hebben dat eindelijk algemeen werkt.
Geweldige voorbeelden van asymmetrie van verificatie zijn dingen zoals sudoku-puzzels, het schrijven van de code voor een website zoals Instagram, en BrowseComp-problemen (het kost ~100 websites om het antwoord te vinden, maar het is gemakkelijk te verifiëren zodra je het antwoord hebt).
Andere taken hebben een bijna-symmetrie van verificatie, zoals het optellen van twee 900-cijferige getallen of sommige dataverwerkingsscripts. Weer andere taken zijn veel gemakkelijker om haalbare oplossingen voor te stellen dan om ze te verifiëren (bijv. het factchecken van een lang essay of het stellen van een nieuw dieet zoals "eet alleen bison").
Een belangrijk punt om te begrijpen over de asymmetrie van verificatie is dat je de asymmetrie kunt verbeteren door van tevoren wat werk te doen. Bijvoorbeeld, als je de antwoordenlijst voor een wiskundeprobleem hebt of als je testgevallen hebt voor een Leetcode-probleem. Dit vergroot de set van problemen met wenselijke verificatie-asymmetrie aanzienlijk.
"De wet van de verifier" stelt dat de eenvoud van het trainen van AI om een taak op te lossen evenredig is aan hoe verifieerbaar de taak is. Alle taken die mogelijk zijn om op te lossen en gemakkelijk te verifiëren zijn, zullen door AI worden opgelost. Het vermogen om AI te trainen om een taak op te lossen, is evenredig aan of de taak de volgende eigenschappen heeft:
1. Objectieve waarheid: iedereen is het erover eens wat goede oplossingen zijn
2. Snel te verifiëren: elke gegeven oplossing kan in enkele seconden worden geverifieerd
3. Schaalbaar te verifiëren: veel oplossingen kunnen gelijktijdig worden geverifieerd
4. Weinig ruis: verificatie is zo nauw mogelijk gecorreleerd aan de kwaliteit van de oplossing
5. Continue beloning: het is gemakkelijk om de kwaliteit van veel oplossingen voor een enkel probleem te rangschikken
Een voor de hand liggende concretisering van de wet van de verifier is het feit dat de meeste benchmarks die in AI zijn voorgesteld, gemakkelijk te verifiëren zijn en tot nu toe zijn opgelost. Merk op dat vrijwel alle populaire benchmarks in de afgelopen tien jaar voldoen aan de criteria #1-4; benchmarks die niet voldoen aan de criteria #1-4 zouden moeite hebben om populair te worden.
Waarom is verifieerbaarheid zo belangrijk? De hoeveelheid leren in AI die plaatsvindt, is gemaximaliseerd wanneer aan de bovenstaande criteria wordt voldaan; je kunt veel gradientstappen nemen waarbij elke stap veel signaal heeft. Snelheid van iteratie is cruciaal – het is de reden dat de vooruitgang in de digitale wereld veel sneller is geweest dan de vooruitgang in de fysieke wereld.
AlphaEvolve van Google is een van de grootste voorbeelden van het benutten van asymmetrie van verificatie. Het richt zich op opstellingen die aan alle bovenstaande criteria voldoen en heeft geleid tot een aantal vooruitgangen in de wiskunde en andere gebieden. Anders dan wat we de afgelopen twee decennia in AI hebben gedaan, is het een nieuw paradigma waarin alle problemen worden geoptimaliseerd in een omgeving waar de trainingsset gelijk is aan de testset.
Asymmetrie van verificatie is overal en het is spannend om een wereld van gekartelde intelligentie te overwegen waar alles wat we kunnen meten zal worden opgelost.

298,98K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste