Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
đây là một số thông tin miễn phí:
nếu chúng ta thực hiện RL quá lâu sau khi huấn luyện trước, chúng ta chắc chắn sẽ ghi đè các tham số và bắt đầu quên đi những điều đã học
trong bài báo gốc về instructGPT, mô hình tốt nhất của họ đã kết hợp RLHF với các gradient huấn luyện trước để tránh chính vấn đề trôi mô hình này
nhưng không ai làm điều này nữa. chắc chắn, đó là một cách cụ thể (trộn gradient) của một ý tưởng rộng hơn (tránh quên) nhưng có vẻ như đây là một dòng suy nghĩ bị bỏ qua rất nhiều khi chúng ta thực hiện ngày càng nhiều bước RL
ví dụ, xem bài báo ProRL gần đây. họ đang thực hiện hơn 1000 bước GRPO bây giờ với một tỷ lệ học không tầm thường và không có hình phạt cho việc lệch khỏi mô hình gốc. các mạch được xây dựng bên trong mô hình trong quá trình huấn luyện trước chắc chắn đang bắt đầu suy giảm. và nếu không, chúng sẽ suy giảm sau 10k hoặc 100k bước RL
tôi nghi ngờ rằng ý tưởng này sẽ quay trở lại vào một lúc nào đó; họ có lẽ đã thực hiện điều này tại các phòng thí nghiệm lớn.



54,8K
Hàng đầu
Thứ hạng
Yêu thích