Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
super nette pipeline, om samen te vatten doen ze:
1. herformuleer de door de gebruiker opgegeven taakprompt,
2. genereer een paar (n=25) diverse synthetische trainingsvoorbeelden (gebruikmakend van ICL met een grote contextvenster om diversiteit te waarborgen),
3. train het model met GRPO + LoRA, gebruikmakend van RULER-rubrieken als beloning

30 jul 2025
Introductie van `AutoRL` 📈
De eenvoudigste manier ter wereld om een taak-specifiek LLM te trainen met RL.
*Schrijf gewoon een ZIN die het model beschrijft dat je wilt.*
Een keten van AI-systemen genereert gegevens + rubrieken en traint een model voor jou.
Aangedreven door ART, het is open source.
Link in de thread:
5,75K
Boven
Positie
Favorieten