DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Shane Gu

Tweelingen - RL, CoT, meertaligheid. Senior Personeel RS @GoogleDeepMind MTV. 🇯🇵 -geboren 🇨🇳🇨🇦 . Vb.: @OpenAI (JP: @shanegJP)

Shane Gu heeft opnieuw gepost

Nieuwe blogpost over de asymmetrie van verificatie en de "wet van de verifier": Asymmetrie van verificatie – het idee dat sommige taken veel gemakkelijker te verifiëren zijn dan op te lossen – wordt een belangrijk idee nu we RL hebben dat eindelijk algemeen werkt. Geweldige voorbeelden van asymmetrie van verificatie zijn dingen zoals sudoku-puzzels, het schrijven van de code voor een website zoals Instagram, en BrowseComp-problemen (het kost ~100 websites om het antwoord te vinden, maar het is gemakkelijk te verifiëren zodra je het antwoord hebt). Andere taken hebben een bijna-symmetrie van verificatie, zoals het optellen van twee 900-cijferige getallen of sommige dataverwerkingsscripts. Weer andere taken zijn veel gemakkelijker om haalbare oplossingen voor te stellen dan om ze te verifiëren (bijv. het factchecken van een lang essay of het stellen van een nieuw dieet zoals "eet alleen bison"). Een belangrijk punt om te begrijpen over de asymmetrie van verificatie is dat je de asymmetrie kunt verbeteren door van tevoren wat werk te doen. Bijvoorbeeld, als je de antwoordenlijst voor een wiskundeprobleem hebt of als je testgevallen hebt voor een Leetcode-probleem. Dit vergroot de set van problemen met wenselijke verificatie-asymmetrie aanzienlijk. "De wet van de verifier" stelt dat de eenvoud van het trainen van AI om een taak op te lossen evenredig is aan hoe verifieerbaar de taak is. Alle taken die mogelijk zijn om op te lossen en gemakkelijk te verifiëren zijn, zullen door AI worden opgelost. Het vermogen om AI te trainen om een taak op te lossen, is evenredig aan of de taak de volgende eigenschappen heeft: 1. Objectieve waarheid: iedereen is het erover eens wat goede oplossingen zijn 2. Snel te verifiëren: elke gegeven oplossing kan in enkele seconden worden geverifieerd 3. Schaalbaar te verifiëren: veel oplossingen kunnen gelijktijdig worden geverifieerd 4. Weinig ruis: verificatie is zo nauw mogelijk gecorreleerd aan de kwaliteit van de oplossing 5. Continue beloning: het is gemakkelijk om de kwaliteit van veel oplossingen voor een enkel probleem te rangschikken Een voor de hand liggende concretisering van de wet van de verifier is het feit dat de meeste benchmarks die in AI zijn voorgesteld, gemakkelijk te verifiëren zijn en tot nu toe zijn opgelost. Merk op dat vrijwel alle populaire benchmarks in de afgelopen tien jaar voldoen aan de criteria #1-4; benchmarks die niet voldoen aan de criteria #1-4 zouden moeite hebben om populair te worden. Waarom is verifieerbaarheid zo belangrijk? De hoeveelheid leren in AI die plaatsvindt, is gemaximaliseerd wanneer aan de bovenstaande criteria wordt voldaan; je kunt veel gradientstappen nemen waarbij elke stap veel signaal heeft. Snelheid van iteratie is cruciaal – het is de reden dat de vooruitgang in de digitale wereld veel sneller is geweest dan de vooruitgang in de fysieke wereld. AlphaEvolve van Google is een van de grootste voorbeelden van het benutten van asymmetrie van verificatie. Het richt zich op opstellingen die aan alle bovenstaande criteria voldoen en heeft geleid tot een aantal vooruitgangen in de wiskunde en andere gebieden. Anders dan wat we de afgelopen twee decennia in AI hebben gedaan, is het een nieuw paradigma waarin alle problemen worden geoptimaliseerd in een omgeving waar de trainingsset gelijk is aan de testset. Asymmetrie van verificatie is overal en het is spannend om een wereld van gekartelde intelligentie te overwegen waar alles wat we kunnen meten zal worden opgelost.

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste