Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De bedrijven die betere benchmarks bouwen, zullen sneller groeien dan de bedrijven die betere modellen bouwen.
AI kan al schaken, examens en programmeerwedstrijden oplossen, maar kan nog steeds geen dinerreservering betrouwbaar maken.
De bottleneck is verschoven van intelligentie naar evaluatie.

27 aug 2025
dit is een van de beste blogposts van 2025 door de OpenAI-onderzoeker @ShunyuYao12.
"we zijn halverwege AI,"
dit is een handleiding voor wat het belangrijkst zal zijn in AI-onderzoek en het startup-ecosysteem, en hoe je je daar het beste op kunt voorbereiden.
decennialang richtte AI-onderzoek zich op algoritmen en nieuwe modellen om de benchmarks te overtreffen.
maar er is iets belangrijks veranderd in het spel: "RL generaliseert eindelijk."
de werkende "recept": massale taalvoortraining (prioren) + schaal + redeneren-als-actie binnen een RL-lus.
dit is het resultaat van het beklimmen van benchmarks. het spel verschuift: van het oplossen van problemen naar het definiëren van de juiste problemen. evaluatie komt centraal te staan.
de kernbenchmark is nu het "nutprobleem". benchmarks vertalen niet goed naar taken in de echte wereld.
dus dit is de handleiding voor de tweede helft: verzin evaluatie-instellingen die zijn gekoppeld aan echt nut; pas dan het recept toe om te winnen onder die nieuwe regels.
in RL is de sleuteltrio omgeving, algoritmen en prioren. we hebben zoveel tijd besteed aan de beste algoritmen, maar algoritmen passen zich te veel aan de omgeving aan waarin ze zijn geboren.
voor de "tweede helft" is evaluatie = omgevingsontwerp: bouw instellingen die dichter bij de realiteit liggen (mens-in-de-lus, niet-IID, sequentieel/met geheugen) om echt nut te stimuleren, niet alleen benchmarkoverwinningen.

370
Boven
Positie
Favorieten