Har inte twittrat mycket under de senaste två månaderna eftersom jag tillbringade tid med att lära mig och experimentera med olika RL-tekniker. Vi ser fram emot att dela med oss av WIP snart: 1. Beräkningsoptimalt recept för GRPO-träning 2. RL-drivet verktyg för att förbättra integriteten i LLM-interaktioner Experimenten har varit lovande 👀
3,78K