この2か月間、さまざまなRLテクニックを学び、実験することに時間を費やしたため、あまりツイートしていませんでした。WIP をすぐに共有できることを嬉しく思います。 1. GRPOトレーニングの最適な計算レシピ 2. LLMインタラクションにおけるプライバシーを強化するRL搭載ツール 実験は有望でした 👀
3.77K