Super úhledný kanál, abych to shrnul: 1. přeformulovat uživatelem zadaný úkolový řádek, 2. vygenerujte několik (n=25) různých příkladů syntetického školení (využití ICL s velkým kontextovým oknem pro zajištění rozmanitosti), 3. trénujte model pomocí GRPO + LoRA, za odměnu pomocí rubrik RULER
Matt Shumer
Matt Shumer30. 7. 2025
Představujeme službu "AutoRL" 📈 Nejjednodušší způsob trénování LLM pro konkrétní úkol pomocí RL. *Stačí napsat VĚTU popisující model, který chcete.* Řetězec systémů AI vygeneruje data + rubriky a natrénuje model za vás. Poháněno ART, je to open source. Odkaz ve vlákně:
5,75K