Selskapene som bygger bedre benchmarks vil vokse raskere enn selskapene som bygger bedre modeller AI kan allerede løse sjakk-, eksamens- og kodekonkurranser, men kan fortsatt ikke bestille en middagsreservasjon på en pålitelig måte Flaskehalsen har flyttet seg fra intelligens til evaluering
ℏεsam
ℏεsam27. aug. 2025
Dette er et av de beste blogginnleggene i 2025 av OpenAI-forskeren @ShunyuYao12. "vi er i AIs pause," det er en spillebok for hva som vil bety mest i AI-forskning og oppstartsøkosystemet, og hvordan du forbereder deg best mulig på det. i flere tiår fokuserte AI-forskning på algoritmer og nye modeller for å slå referansene. men noe viktig har endret spillet: "RL generaliserer endelig." den fungerende "oppskriften": massiv språktrening (priors) + skala + resonnement-som-handling inne i en RL-sløyfe. resultatet av denne referanseklatringen. Spillet skifter: fra å løse problemer til å definere de riktige problemene. evaluering blir sentrum. Kjernemålestokken nå er "nytteproblemet". Benchmarks oversettes egentlig ikke godt til virkelige oppgaver. Så dette er spilleboken for andre halvdel: Oppfinn evalueringsoppsett knyttet til reell nytte; Bruk deretter oppskriften for å vinne under de nye reglene. i RL er nøkkeltrioen miljø, algoritmer og priorer. Vi har brukt så mye tid på de beste Algo-ene, men Algo-overpasser til miljøet de er født i. for "andre halvdel", evaluering = miljødesign: bygg oppsett nærmere virkeligheten (menneske-i-løkken, ikke-IID, sekvensiell/med minne) for å drive reell nytte, ikke bare benchmark-seire.
380