Pipa super rapi, untuk meringkas mereka: 1. menyusun ulang prompt tugas yang ditentukan pengguna, 2. menghasilkan beberapa (n = 25) contoh pelatihan sintetis yang beragam (memanfaatkan ICL dengan jendela konteks besar untuk memastikan keragaman), 3. melatih model dengan GRPO + LoRA, menggunakan rubrik RULER sebagai hadiah
Matt Shumer
Matt Shumer30 Jul 2025
Memperkenalkan 'AutoRL' 📈 Cara tersederhana di dunia untuk melatih LLM khusus tugas dengan RL. *Cukup tulis KALIMAT yang menjelaskan model yang Anda inginkan.* Rantai sistem AI akan menghasilkan data + rubrik dan melatih model untuk Anda. Didukung oleh ART, ini adalah open source. Tautan di utas:
5,74K