Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Có ai đã thử RL để viết lại các prompt cho các mô hình lý luận nhằm cải thiện đầu ra hơn nữa chưa?
Tôi giả định là có, điều này có vẻ khá hiển nhiên, nhưng nếu chưa thì tôi muốn thử nghiệm.
Nếu bạn biết có bất kỳ công trình nào đã tồn tại ở đây, xin hãy cho tôi biết để tôi không làm lại những gì mà mọi người đã làm!
Ý tôi là:
- Lấy một mô hình lý luận đã được đào tạo sẵn và đóng băng (tức là o4-mini qua API)
- Thêm một LLM nhỏ hơn nhận một prompt và viết lại nó để cải thiện cách mà mô hình đóng băng hoạt động
- Cập nhật trọng số của LLM nhỏ hơn, giữ cho LLM lớn hơn ở trạng thái đóng băng
Hy vọng rằng LLM nhỏ sẽ học cách 'lái' CoT của mô hình lớn hơn đã đóng băng tốt hơn một con người, từ đó tăng cường hiệu suất.
@corbtt đã nhắc tôi về công việc này của @brendanh0gan...
Brendan, mọi chuyện diễn ra thế nào? Có vẻ khá giống với những gì tôi đang nghĩ ở đây.

08:26 3 thg 7
các mô hình lớn là những tác nhân tuyệt vời nhưng thường quá lớn, đóng kín, hoặc nhạy cảm để tinh chỉnh
ý tưởng: huấn luyện một mô hình nhỏ để tạo bối cảnh cho một mô hình lớn đã đóng băng, đánh giá đầu ra của mô hình lớn, sử dụng điều đó làm phần thưởng cho mô hình nhỏ
grpo để tinh chỉnh bối cảnh. thêm thông tin bên dưới

17,55K
Hàng đầu
Thứ hạng
Yêu thích