Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

OpenAI đã đạt được RL với tập dài rất dài bằng mô hình thử nghiệm này chưa? Ảnh chụp màn hình từ bài viết của @natolambert về "Những gì sẽ đến tiếp theo với học tăng cường". Nathan nói trong bài viết này - Nơi mà các phương pháp hiện tại đang tạo ra 10K-100K token cho mỗi câu trả lời cho các bài toán toán học hoặc mã trong quá trình đào tạo, loại vấn đề mà mọi người thảo luận về việc áp dụng đào tạo RL thế hệ tiếp theo sẽ là 1M-100M token cho mỗi câu trả lời. Điều này liên quan đến việc bao bọc nhiều cuộc gọi suy diễn, lời nhắc và tương tác với một môi trường trong một tập mà chính sách được cập nhật. Có thể bước đột phá này là sự kết hợp của cả hai - RL với tập dài rất dài & mở rộng TTC lên 1M-100M token cho mỗi câu trả lời!

8,87K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất