一顆西瓜大小的櫻桃在上面 :)
Shane Gu
Shane Gu7月11日 06:22
2023年:在OpenAI,一些關鍵人物在後訓練階段反對擴展強化學習。 2022年:Eric/Yuhuai(現在是xAI)寫了STaR,而我寫了"LLM可以自我改進"。很明顯,基於乾淨信號的強化學習解鎖了下一次飛躍。 前後訓練的區分可能對AI造成了很大的減速。
13.6K