super nette pipeline, om samen te vatten doen ze: 1. herformuleer de door de gebruiker opgegeven taakprompt, 2. genereer een paar (n=25) diverse synthetische trainingsvoorbeelden (gebruikmakend van ICL met een grote contextvenster om diversiteit te waarborgen), 3. train het model met GRPO + LoRA, gebruikmakend van RULER-rubrieken als beloning
Matt Shumer
Matt Shumer30 jul 2025
Introductie van `AutoRL` 📈 De eenvoudigste manier ter wereld om een taak-specifiek LLM te trainen met RL. *Schrijf gewoon een ZIN die het model beschrijft dat je wilt.* Een keten van AI-systemen genereert gegevens + rubrieken en traint een model voor jou. Aangedreven door ART, het is open source. Link in de thread:
5,75K