Ceri seukuran melon di atas :)
Shane Gu
Shane Gu11 Jul, 06.22
2023: di OpenAI, beberapa buah ara utama dalam pasca-pelatihan adalah menentang penskalaan RL. 2022: Eric/Yuhuai (sekarang xAI) menulis STaR dan saya menulis "LLM dapat meningkatkan diri". Jelas bahwa RL pada sinyal bersih membuka lompatan berikutnya. Kesenjangan pra/sesudah pelatihan mungkin merupakan perlambatan besar untuk AI.
13,61K