Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI đã đạt được RL với tập dài rất dài bằng mô hình thử nghiệm này chưa?
Ảnh chụp màn hình từ bài viết của @natolambert về "Những gì sẽ đến tiếp theo với học tăng cường".
Nathan nói trong bài viết này - Nơi mà các phương pháp hiện tại đang tạo ra 10K-100K token cho mỗi câu trả lời cho các bài toán toán học hoặc mã trong quá trình đào tạo, loại vấn đề mà mọi người thảo luận về việc áp dụng đào tạo RL thế hệ tiếp theo sẽ là 1M-100M token cho mỗi câu trả lời. Điều này liên quan đến việc bao bọc nhiều cuộc gọi suy diễn, lời nhắc và tương tác với một môi trường trong một tập mà chính sách được cập nhật.
Có thể bước đột phá này là sự kết hợp của cả hai - RL với tập dài rất dài & mở rộng TTC lên 1M-100M token cho mỗi câu trả lời!


15:50 19 thg 7
5/N Ngoài kết quả chính, tôi rất hào hứng về cách tiếp cận của chúng tôi: Chúng tôi đạt được cấp độ khả năng này không phải thông qua phương pháp hẹp, cụ thể cho nhiệm vụ, mà bằng cách mở ra những con đường mới trong học tăng cường đa mục đích và mở rộng tính toán trong thời gian kiểm tra.
8,87K
Hàng đầu
Thứ hạng
Yêu thích