Super fin pipeline, for å oppsummere de: 1. Omformuler brukerspesifisert oppgavemelding, 2. generere noen få (n=25) forskjellige syntetiske treningseksempler (utnytte ICL med stort kontekstvindu for å sikre mangfold), 3. Tren modell med GRPO + LoRA, bruk RULER-rubrikker som belønning
Matt Shumer
Matt Shumer30. juli 2025
Vi introduserer «AutoRL» 📈 Verdens enkleste måte å trene en oppgavespesifikk LLM med RL. *Bare skriv en SETNING som beskriver modellen du ønsker.* En kjede av AI-systemer vil generere data + rubrikker og trene en modell for deg. Drevet av ART, er det åpen kildekode. Lenke i tråden:
5,74K