Berikut beberapa alfa gratis: jika kita melakukan RL terlalu lama setelah pralatihan, kita pasti akan menimpa parameter dan mulai melupakan banyak hal dalam makalah instructGPT asli, model terbaik mereka mencampur RLHF dengan gradien pra-pelatihan untuk menghindari masalah penyimpangan model ini namun tidak ada yang melakukan ini lagi. tentu, ini adalah satu instansiasi tertentu (pencampuran gradien) dari ide yang lebih luas (menghindari lupa) tetapi tampaknya seperti garis pemikiran yang sangat diabaikan saat kita melakukan lebih banyak langkah RL misalnya lihat makalah ProRL baru-baru ini. mereka melakukan lebih dari 1000 langkah GRPO sekarang dengan tingkat pembelajaran yang tidak sepele dan tanpa penalti karena menyimpang dari model aslinya. Sirkuit yang dibangun di dalam model selama prapelatihan pasti mulai membusuk. dan jika tidak, mereka akan melakukannya setelah 10k atau 100k langkah RL Saya menduga ide ini akan kembali pada akhirnya; Mereka mungkin sudah melakukan ini di laboratorium besar
54,8K