pipeline cực kỳ gọn gàng, để tóm tắt họ: 1. diễn đạt lại yêu cầu tác vụ do người dùng chỉ định, 2. tạo ra một vài (n=25) ví dụ huấn luyện tổng hợp đa dạng (tận dụng ICL với cửa sổ ngữ cảnh lớn để đảm bảo sự đa dạng), 3. huấn luyện mô hình với GRPO + LoRA, sử dụng các tiêu chí RULER làm phần thưởng
Matt Shumer
Matt Shumer30 thg 7, 2025
Giới thiệu `AutoRL` 📈 Cách đơn giản nhất trên thế giới để huấn luyện một LLM cụ thể cho nhiệm vụ với RL. *Chỉ cần viết một CÂU mô tả mô hình bạn muốn.* Một chuỗi các hệ thống AI sẽ tạo ra dữ liệu + tiêu chí và huấn luyện một mô hình cho bạn. Được hỗ trợ bởi ART, nó là mã nguồn mở. Liên kết trong chủ đề:
5,75K