Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Tweelingen - RL, CoT, meertaligheid. Senior Personeel RS @GoogleDeepMind MTV. 🇯🇵 -geboren 🇨🇳🇨🇦 . Vb.: @OpenAI (JP: @shanegJP)
Shane Gu heeft opnieuw gepost
🚨 Olympiade wiskunde + AI:
We hebben Google’s Gemini 2.5 Pro getest op de nieuwe IMO 2025 problemen. Met zorgvuldige aansturing en pipeline-ontwerp loste het 5 van de 6 op — opmerkelijk voor taken die diep inzicht en creativiteit vereisen.
Het model zou goud kunnen winnen! 🥇
#AI #Wiskunde #LLMs #IMO2025
218,91K
Aziaten: we zullen onze eigen rommel opruimen

Patrick Shen18 jul, 03:03
Bij hun lancering beweerde Cluely dat het 9 industrieën zou doden.
Wij zijn hier om er slechts één te doden: bedrog.
Maak kennis met Truely — de open-source tool die AI-ondersteunde interviews in realtime markeert. Werkt met Zoom, Meets, Teams en meer.
De toekomst van online interviews is hier.
2,02K
Om tegen Aziaten te vechten, heb je Aziaten nodig

Patrick Shen18 jul, 03:03
Bij hun lancering beweerde Cluely dat het 9 industrieën zou doden.
Wij zijn hier om er slechts één te doden: bedrog.
Maak kennis met Truely — de open-source tool die AI-ondersteunde interviews in realtime markeert. Werkt met Zoom, Meets, Teams en meer.
De toekomst van online interviews is hier.
248
Waarom pre-trainings- en post-trainingsgroepen goed met elkaar moeten opschieten

David Mizrahi18 jul, 06:21
We zijn enthousiast om ons nieuwe werk te delen: “Taalmodellen Verbeteren Wanneer Voortrainingsdata Overeenkomt met Doelstellingen”
Ja, het klinkt voor de hand liggend (en dat is het ook!), maar meestal gebeurt dit alleen impliciet en indirect: intuïtief data selecteren → benchmark → verfijnen → herhalen.
We vroegen ons af: wat gebeurt er als we de voortrainingsdata expliciet afstemmen op benchmarks? Het resultaat is een doodsimpele aanpak die 2x+ rekencapaciteit oplevert ten opzichte van sterke baselines en ons een principiële manier biedt om te bestuderen hoe de keuze van benchmarks de (en beperkt!) modelcapaciteiten vormgeeft.
Bonus: uitgebreide schalingwetten van het trainen van 500+ modellen die onthullen hoe optimale dataselectie evolueert naarmate modellen opschalen.
🧵 (1/14)

2,69K
Het Grok-team internaliseert menselijke data-operations (bijv. werving voor de rol van AI-tutor voor Japans). Waarschijnlijk denken meer frontier labs na over het bezitten en opereren van de dataarbeid.

Koki Ikeda | SoftBank15 jul, 22:12
"xAI," dat Grok ontwikkelt, is op zoek naar een Japanse AI-tutor.
De functie omvat het labelen en annoteren van Japanse tekst, audio en videogegevens. Je kunt volledig op afstand werken vanuit Japan, en het salaris is een hoog uurtarief dat overeenkomt met de Amerikaanse normen.
🗣️ Native Japanse spreker
🧑💻 Volledig op afstand
💰 Uurtarief van $35–65 (5200-9600 yen)
🕐 6-maandencontract (met mogelijkheid tot verlenging)

8,38K
Het Grok-team internaliseert menselijke data-operations (bijv. werving voor de rol van AI-tutor voor Japans). Gezien de overgang naar Scale AI, denken waarschijnlijk meer frontier labs na over het bezitten en opereren van de datakrachten.

Koki Ikeda | SoftBank15 jul, 22:12
"xAI," dat Grok ontwikkelt, is op zoek naar een Japanse AI-tutor.
De functie omvat het labelen en annoteren van Japanse tekst, audio en videogegevens. Je kunt volledig op afstand werken vanuit Japan, en het salaris is een hoog uurtarief dat overeenkomt met de Amerikaanse normen.
🗣️ Native Japanse spreker
🧑💻 Volledig op afstand
💰 Uurtarief van $35–65 (5200-9600 yen)
🕐 6-maandencontract (met mogelijkheid tot verlenging)

340
Als je op ICML bent en geïnteresseerd bent in RL of meertaligheid, zeg dan hallo tegen @marafinkels! We hebben de afgelopen maanden nauw samengewerkt om een RL-methode te ontwikkelen om een kritisch kwaliteitsprobleem van Gemini op te lossen. Ze heeft ook geweldige onderzoeks ideeën! Hopelijk blijven Gemini x academia in contact.

Mara Finkelstein27 nov 2024
LLM's worden doorgaans geëvalueerd met automatische metrics op standaard testsets, maar metrics + testsets worden onafhankelijk ontwikkeld. Dit roept een cruciale vraag op: Kunnen we automatische metrics ontwerpen die specifiek uitblinken op de testsets die we prioriteren? Antwoord: Ja!

5,77K
Shane Gu heeft opnieuw gepost
Nieuwe blogpost over de asymmetrie van verificatie en de "wet van de verifier":
Asymmetrie van verificatie – het idee dat sommige taken veel gemakkelijker te verifiëren zijn dan op te lossen – wordt een belangrijk idee nu we RL hebben dat eindelijk algemeen werkt.
Geweldige voorbeelden van asymmetrie van verificatie zijn dingen zoals sudoku-puzzels, het schrijven van de code voor een website zoals Instagram, en BrowseComp-problemen (het kost ~100 websites om het antwoord te vinden, maar het is gemakkelijk te verifiëren zodra je het antwoord hebt).
Andere taken hebben een bijna-symmetrie van verificatie, zoals het optellen van twee 900-cijferige getallen of sommige dataverwerkingsscripts. Weer andere taken zijn veel gemakkelijker om haalbare oplossingen voor te stellen dan om ze te verifiëren (bijv. het factchecken van een lang essay of het stellen van een nieuw dieet zoals "eet alleen bison").
Een belangrijk punt om te begrijpen over de asymmetrie van verificatie is dat je de asymmetrie kunt verbeteren door van tevoren wat werk te doen. Bijvoorbeeld, als je de antwoordenlijst voor een wiskundeprobleem hebt of als je testgevallen hebt voor een Leetcode-probleem. Dit vergroot de set van problemen met wenselijke verificatie-asymmetrie aanzienlijk.
"De wet van de verifier" stelt dat de eenvoud van het trainen van AI om een taak op te lossen evenredig is aan hoe verifieerbaar de taak is. Alle taken die mogelijk zijn om op te lossen en gemakkelijk te verifiëren zijn, zullen door AI worden opgelost. Het vermogen om AI te trainen om een taak op te lossen, is evenredig aan of de taak de volgende eigenschappen heeft:
1. Objectieve waarheid: iedereen is het erover eens wat goede oplossingen zijn
2. Snel te verifiëren: elke gegeven oplossing kan in enkele seconden worden geverifieerd
3. Schaalbaar te verifiëren: veel oplossingen kunnen gelijktijdig worden geverifieerd
4. Weinig ruis: verificatie is zo nauw mogelijk gecorreleerd aan de kwaliteit van de oplossing
5. Continue beloning: het is gemakkelijk om de kwaliteit van veel oplossingen voor een enkel probleem te rangschikken
Een voor de hand liggende concretisering van de wet van de verifier is het feit dat de meeste benchmarks die in AI zijn voorgesteld, gemakkelijk te verifiëren zijn en tot nu toe zijn opgelost. Merk op dat vrijwel alle populaire benchmarks in de afgelopen tien jaar voldoen aan de criteria #1-4; benchmarks die niet voldoen aan de criteria #1-4 zouden moeite hebben om populair te worden.
Waarom is verifieerbaarheid zo belangrijk? De hoeveelheid leren in AI die plaatsvindt, is gemaximaliseerd wanneer aan de bovenstaande criteria wordt voldaan; je kunt veel gradientstappen nemen waarbij elke stap veel signaal heeft. Snelheid van iteratie is cruciaal – het is de reden dat de vooruitgang in de digitale wereld veel sneller is geweest dan de vooruitgang in de fysieke wereld.
AlphaEvolve van Google is een van de grootste voorbeelden van het benutten van asymmetrie van verificatie. Het richt zich op opstellingen die aan alle bovenstaande criteria voldoen en heeft geleid tot een aantal vooruitgangen in de wiskunde en andere gebieden. Anders dan wat we de afgelopen twee decennia in AI hebben gedaan, is het een nieuw paradigma waarin alle problemen worden geoptimaliseerd in een omgeving waar de trainingsset gelijk is aan de testset.
Asymmetrie van verificatie is overal en het is spannend om een wereld van gekartelde intelligentie te overwegen waar alles wat we kunnen meten zal worden opgelost.

298,77K
Impactvol werk dat iedereen kan doen, is het gebruik van LLM's om zoveel mogelijk van je workflow, CoTs en inspiratie te journaliseren en te digitaliseren.
Contextengineering voor het automatiseren en aanvullen van jezelf in het leven en werk.

Thariq15 jul, 05:51
Tijdschriften & Taken
Ik heb een paar aangepaste commando's:
/journal commando dat een nieuwe journalentry voor de dag zal aanmaken.
/todos een commando dat me in staat stelt om nieuwe taken aan te maken of andere als voltooid te markeren. Taken zijn georganiseerd per onderwerp in bestanden, bijv. ‘
Claude zal vaak mijn code, projecten, enz. doorzoeken voor meer context wanneer ik een taak toevoeg, wat super handig is.
837
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste