2023: di OpenAI, beberapa buah ara utama dalam pasca-pelatihan adalah menentang penskalaan RL. 2022: Eric/Yuhuai (sekarang xAI) menulis STaR dan saya menulis "LLM dapat meningkatkan diri". Jelas bahwa RL pada sinyal bersih membuka lompatan berikutnya. Kesenjangan pra/sesudah pelatihan mungkin merupakan perlambatan besar untuk AI.
34,74K