Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Berikut beberapa alfa gratis:
jika kita melakukan RL terlalu lama setelah pralatihan, kita pasti akan menimpa parameter dan mulai melupakan banyak hal
dalam makalah instructGPT asli, model terbaik mereka mencampur RLHF dengan gradien pra-pelatihan untuk menghindari masalah penyimpangan model ini
namun tidak ada yang melakukan ini lagi. tentu, ini adalah satu instansiasi tertentu (pencampuran gradien) dari ide yang lebih luas (menghindari lupa) tetapi tampaknya seperti garis pemikiran yang sangat diabaikan saat kita melakukan lebih banyak langkah RL
misalnya lihat makalah ProRL baru-baru ini. mereka melakukan lebih dari 1000 langkah GRPO sekarang dengan tingkat pembelajaran yang tidak sepele dan tanpa penalti karena menyimpang dari model aslinya. Sirkuit yang dibangun di dalam model selama prapelatihan pasti mulai membusuk. dan jika tidak, mereka akan melakukannya setelah 10k atau 100k langkah RL
Saya menduga ide ini akan kembali pada akhirnya; Mereka mungkin sudah melakukan ini di laboratorium besar



54,8K
Teratas
Peringkat
Favorit