Thức dậy để thấy bài báo mới này từ @scale_AI đang được charting trên nguồn tin trending của @yesnoerror. Tác giả: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, và @SeanHendryx "Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains" Đơn giản hóa: Dạy máy tính bằng các danh sách kiểm tra chi tiết thay vì các đánh giá mơ hồ cho phép chúng học được những câu trả lời tốt hơn trong các câu hỏi về y học và khoa học và làm rõ lý do tại sao chúng nhận được phần thưởng. Những phát hiện chính: • Phần thưởng rubric được tổng hợp ngầm giúp tăng điểm chuẩn y tế lên 28% so với cơ sở Likert. • So sánh hoặc vượt qua phần thưởng dựa trên câu trả lời tham khảo của chuyên gia mặc dù sử dụng các thẩm phán nhỏ hơn. Có thể sử dụng cho: • Tinh chỉnh các chatbot hỗ trợ quyết định lâm sàng với các rubric an toàn y tế. • Đào tạo các mô hình phân tích chính sách hoặc lý luận pháp lý nơi nhiều yếu tố chủ quan quan trọng. Tóm tắt chi tiết: Rubrics as Rewards (RaR) được đề xuất như một lựa chọn có thể giải thích thay thế cho các mô hình phần thưởng dựa trên sở thích mờ khi tinh chỉnh các mô hình ngôn ngữ lớn (LLMs) bằng học tăng cường. Thay vì yêu cầu con người xếp hạng toàn bộ câu trả lời, các chuyên gia trong lĩnh vực (hoặc một LLM mạnh được hướng dẫn bởi các tham khảo chuyên gia) viết một danh sách kiểm tra cụ thể cho từng prompt với 7–20 tiêu chí nhị phân nắm bắt các sự kiện thiết yếu, các bước lý luận, phong cách và những cạm bẫy phổ biến. Mỗi tiêu chí được gán nhãn Thiết yếu, Quan trọng, Tùy chọn hoặc Cạm bẫy và được gán một trọng số. Trong quá trình đào tạo theo chính sách, mô hình chính sách (Qwen-2.5-7B trong bài báo) lấy mẫu 16 câu trả lời ứng viên cho mỗi prompt. Một LLM thẩm phán riêng biệt (GPT-4o-mini hoặc nhỏ hơn) được yêu cầu hoặc để chấm điểm từng tiêu chí riêng biệt (tổng hợp rõ ràng) hoặc để đọc toàn bộ rubric và đưa ra một đánh giá Likert tổng thể từ 1–10 (tổng hợp ngầm). Điểm chuẩn hóa trở thành phần thưởng vô hướng và chính sách được cập nhật bằng thuật toán GRPO. Các tác giả biên soạn hai bộ dữ liệu đào tạo 20k ví dụ—RaR-Medical-20k và RaR-Science-20k—bằng cách kết hợp các tập hợp lý luận y tế và khoa học hiện có và tạo ra các rubric tổng hợp với o3-mini hoặc GPT-4o. Đánh giá trên HealthBench-1k (lý luận y tế) và GPQA-Diamond (vật lý/hóa học/sinh học cấp cao) cho thấy rằng RaR-Implicit mang lại cải thiện lên đến 28% so với phần thưởng chỉ dựa trên Likert và so sánh hoặc vượt qua phần thưởng được tính toán bằng cách so sánh với các câu trả lời tham khảo của chuyên gia. Tổng hợp ngầm liên tục vượt trội hơn tổng hợp rõ ràng, cho thấy rằng việc để thẩm phán quyết định cách kết hợp các tiêu chí hoạt động tốt hơn so với trọng số được điều chỉnh bằng tay cố định. Giám sát rubric cũng giúp các mô hình thẩm phán nhỏ hơn. Khi được yêu cầu đánh giá câu trả lời ưa thích so với câu trả lời bị biến đổi, các thẩm phán được hướng dẫn bởi rubric chọn câu trả lời ưa thích đáng tin cậy hơn nhiều so với các thẩm phán chỉ dựa trên Likert có kích thước tương đương, thu hẹp khoảng cách giữa một người đánh giá 7B và GPT-4o-mini. Các thử nghiệm cho thấy rằng các rubric cụ thể cho từng prompt vượt trội hơn các rubric chung, nhiều tiêu chí vượt trội hơn danh sách chỉ có thiết yếu, và việc có quyền truy cập vào một tham khảo chuyên gia trong khi soạn thảo rubric tăng cường hiệu suất hạ nguồn một cách đáng kể. Ngay cả các rubric viết tay và tổng hợp chất lượng cao cũng hoạt động tương đương, cho thấy khả năng mở rộng. RaR tổng quát hóa Học Tăng cường với Phần thưởng Có thể Xác minh (RLVR): khi rubric chỉ có một kiểm tra độ chính xác, khung này sụp đổ thành phần thưởng khớp chính xác của RLVR. Bằng cách phơi bày từng khía cạnh của chất lượng một cách rõ ràng, RaR trở nên minh bạch hơn, có thể kiểm toán và có khả năng khó bị hack phần thưởng hơn so với các mô hình phần thưởng thần kinh. Các tác giả thảo luận về các mở rộng cho các nhiệm vụ tác nhân thực tế, chương trình học động thông qua trọng số rubric, và các nghiên cứu độ bền chính thức. -- Hơn 500.000 trang nghiên cứu được công bố trên @arXiv mỗi tháng. Ẩn bên trong là những hiểu biết đột phá có thể biến đổi công việc của bạn — nhưng việc tìm kiếm chúng giống như tìm kiếm kim cương trong đại dương dữ liệu. @yesnoerror cắt xuyên qua tiếng ồn để nổi bật những nghiên cứu có tác động nhất cho các dự án, đầu tư và khám phá của bạn. // $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Đăng ký để truy cập sớm tại đây:
2,89K