Aufgeregt, unsere neue Arbeit zu teilen: „Sprachmodelle verbessern sich, wenn die Pretraining-Daten mit den Zielaufgaben übereinstimmen“ Ja, es klingt offensichtlich (und das ist es!), aber normalerweise geschieht dies nur implizit und indirekt: intuitiv Daten auswählen → Benchmark → verfeinern → wiederholen. Wir haben uns gefragt: Was passiert, wenn wir die Pretraining-Daten explizit an Benchmarks anpassen? Das Ergebnis ist ein todsimple Ansatz, der 2x+ Rechenmultiplikatoren gegenüber starken Baselines liefert und uns eine fundierte Möglichkeit gibt, zu untersuchen, wie die Auswahl von Benchmarks die (und einschränkt!) Modellfähigkeiten formt. Bonus: umfangreiche Skalierungsgesetze aus dem Training von über 500 Modellen, die zeigen, wie sich die optimale Datenauswahl entwickelt, während die Modelle skalieren. 🧵 (1/14)
52,02K