2023年:在OpenAI,一些關鍵人物在後訓練階段反對擴展強化學習。 2022年:Eric/Yuhuai(現在是xAI)寫了STaR,而我寫了"LLM可以自我改進"。很明顯,基於乾淨信號的強化學習解鎖了下一次飛躍。 前後訓練的區分可能對AI造成了很大的減速。
34.74K