Super snygg pipeline, för att sammanfatta de: 1. omformulera användarspecificerad uppgiftsprompt, 2. generera några (n = 25) olika syntetiska träningsexempel (utnyttja ICL med stort kontextfönster för att säkerställa mångfald), 3. träna modellen med GRPO + LoRA, med hjälp av RULER-rubriker som belöning
Matt Shumer
Matt Shumer30 juli 2025
Vi presenterar 'AutoRL' 📈 Världens enklaste sätt att träna en uppgiftsspecifik LLM med RL. *Skriv bara en MENING som beskriver den modell du vill ha.* En kedja av AI-system kommer att generera data + rubriker och träna en modell åt dig. Drivs av ART, det är öppen källkod. Länk i tråden:
5,79K