Siamo entusiasti di condividere il nostro nuovo lavoro: “I modelli linguistici migliorano quando i dati di pre-addestramento corrispondono ai compiti target” Sì, sembra ovvio (e lo è!), ma tipicamente questo avviene solo in modo implicito e indiretto: selezionare intuitivamente i dati → benchmark → affinare → ripetere. Ci siamo chiesti: cosa succede se abbiniamo esplicitamente i dati di pre-addestramento ai benchmark? Il risultato è un approccio semplicissimo che offre moltiplicatori di calcolo superiori a 2x rispetto a solide baseline e ci fornisce un modo principled per studiare come le scelte dei benchmark plasmino (e vincolino!) le capacità del modello. Bonus: leggi di scalabilità estensive da 500+ modelli addestrati che rivelano come l'ottimale selezione dei dati evolve man mano che i modelli scalano. 🧵 (1/14)
52,01K