一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

2023年：在OpenAI，一些關鍵人物在後訓練階段反對擴展強化學習。 2022年：Eric/Yuhuai（現在是xAI）寫了STaR，而我寫了"LLM可以自我改進"。很明顯，基於乾淨信號的強化學習解鎖了下一次飛躍。前後訓練的區分可能對AI造成了很大的減速。

34.74K