Nu am scris prea multe pe Twitter în ultimele două luni, deoarece am petrecut timp învățând și experimentând diverse tehnici RL. Sunt încântat să împărtășesc în curând câteva WIP: 1. Rețetă optimă de calcul pentru antrenamentul GRPO 2. Instrument bazat pe RL pentru a spori confidențialitatea în interacțiunile LLM Experimentele au fost promițătoare 👀
3,77K