Glad for å dele vårt nye arbeid: "Språkmodeller forbedres når forhåndsopplæringsdata samsvarer med måloppgaver" Ja, det høres åpenbart ut (og det er det!), men vanligvis skjer dette bare implisitt og indirekte: velg intuitivt data → benchmark → avgrense → gjenta. Vi lurte på: hva skjer hvis vi eksplisitt matcher pretraining-data med benchmarks? Resultatet er en dødsenkel tilnærming som gir 2x+ beregningsmultiplikatorer over sterke grunnlinjer og gir oss en prinsipiell måte å studere hvordan referansevalg former (og begrenser!) modellfunksjoner. Bonus: omfattende skaleringslover fra trening av 500+ modeller som avslører hvordan optimalt datautvalg utvikler seg etter hvert som modeller skaleres. 🧵 (1/14)
52,02K