super coole Pipeline, um zusammenzufassen, sie: 1. umformulieren die vom Benutzer angegebenen Aufgabenaufforderung, 2. generieren einige (n=25) vielfältige synthetische Trainingsbeispiele (unter Ausnutzung von ICL mit großem Kontextfenster, um Vielfalt zu gewährleisten), 3. trainieren das Modell mit GRPO + LoRA, unter Verwendung von RULER-Rubriken als Belohnung.
Matt Shumer
Matt Shumer30. Juli 2025
Einführung von `AutoRL` 📈 Der einfachste Weg der Welt, ein aufgaben-spezifisches LLM mit RL zu trainieren. *Schreiben Sie einfach einen SATZ, der das Modell beschreibt, das Sie möchten.* Eine Kette von KI-Systemen wird Daten + Rubriken generieren und ein Modell für Sie trainieren. Angetrieben von ART, ist es Open Source. Link im Thread:
5,74K