Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

đây là một số thông tin miễn phí: nếu chúng ta thực hiện RL quá lâu sau khi huấn luyện trước, chúng ta chắc chắn sẽ ghi đè các tham số và bắt đầu quên đi những điều đã học trong bài báo gốc về instructGPT, mô hình tốt nhất của họ đã kết hợp RLHF với các gradient huấn luyện trước để tránh chính vấn đề trôi mô hình này nhưng không ai làm điều này nữa. chắc chắn, đó là một cách cụ thể (trộn gradient) của một ý tưởng rộng hơn (tránh quên) nhưng có vẻ như đây là một dòng suy nghĩ bị bỏ qua rất nhiều khi chúng ta thực hiện ngày càng nhiều bước RL ví dụ, xem bài báo ProRL gần đây. họ đang thực hiện hơn 1000 bước GRPO bây giờ với một tỷ lệ học không tầm thường và không có hình phạt cho việc lệch khỏi mô hình gốc. các mạch được xây dựng bên trong mô hình trong quá trình huấn luyện trước chắc chắn đang bắt đầu suy giảm. và nếu không, chúng sẽ suy giảm sau 10k hoặc 100k bước RL tôi nghi ngờ rằng ý tưởng này sẽ quay trở lại vào một lúc nào đó; họ có lẽ đã thực hiện điều này tại các phòng thí nghiệm lớn.

54,8K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất