一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

在過去兩個月中，我沒有發推文，因為我花時間學習和實驗各種強化學習技術。期待很快分享一些正在進行的工作： 1. GRPO 訓練的計算最佳配方 2. 增強 LLM 互動隱私的強化學習工具這些實驗的結果令人鼓舞 👀

3.77K