Conductă super îngrijită, pentru a rezuma: 1. reformulați promptul de activitate specificat de utilizator, 2. generarea câtorva (n = 25) exemple de formare sintetică diverse (folosind ICL cu o fereastră de context mare pentru a asigura diversitatea), 3. antrenați modelul cu GRPO + LoRA, folosind rubricile RULER ca recompensă
Matt Shumer
Matt Shumer30 iul. 2025
Vă prezentăm "AutoRL" 📈 Cel mai simplu mod din lume de a antrena un LLM specific sarcinii cu RL. *Doar scrieți o PROPOZIȚIE care descrie modelul dorit.* Un lanț de sisteme AI va genera date + rubrici și va antrena un model pentru dvs. Alimentat de ART, este open source. Link în fir:
5,73K