За останні два місяці я не написав багато твітів, оскільки провів час, вивчаючи та експериментуючи з різними техніками RL. З радістю скоро поділимося деякими WIP: 1. Розрахунково-оптимальний рецепт тренування GRPO 2. Інструмент на основі RL для підвищення конфіденційності під час взаємодії з LLM Експерименти були багатообіцяючими 👀
3,76K