熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
一顆西瓜大小的櫻桃在上面 :)

7月11日 06:22
2023年:在OpenAI,一些關鍵人物在後訓練階段反對擴展強化學習。
2022年:Eric/Yuhuai(現在是xAI)寫了STaR,而我寫了"LLM可以自我改進"。很明顯,基於乾淨信號的強化學習解鎖了下一次飛躍。
前後訓練的區分可能對AI造成了很大的減速。

13.6K
熱門
排行
收藏