Min bästa gissning: Rubriker + LLM Judge - Finfördela varje punkt i marken sanningsbevis och kontrollera mot modellens utdata Min gissning på hur de gjorde detta skalbart - som tidigare var det inte, människor var tvungna att noggrant utforma dem, är de utbildade eller gjorde något för att göra mycket bra rubriker som genererades för varje specifikt problem eller dess svar.
Alexander Wei
Alexander Wei19 juli 15:50
5/N Besides the result itself, I am excited about our approach: We reach this capability level not via narrow, task-specific methodology, but by breaking new ground in general-purpose reinforcement learning and test-time compute scaling.
.@polynoamial @alexwei_ blinkar två gånger om jag har rätt och 3 gånger om jag har fel - innan blinden leds av blinden xD
22,76K