Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bangun untuk melihat makalah baru ini dari grafik @scale_AI di umpan tren @yesnoerror.
Penulis: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, dan @SeanHendryx
"Rubrik sebagai Hadiah: Pembelajaran Penguatan di Luar Domain yang Dapat Diverifikasi"
Sederhana: Mengajarkan komputer dengan daftar periksa terperinci alih-alih peringkat jempol yang tidak jelas memungkinkan mereka mempelajari jawaban yang lebih baik dalam pertanyaan kedokteran dan sains dan memperjelas mengapa mereka mendapat hadiah.
Temuan utama:
• Hadiah rubrik agregat secara implisit meningkatkan skor tolok ukur medis sebesar 28% relatif terhadap baseline Likert.
• Mencocokkan atau melampaui hadiah berdasarkan jawaban referensi ahli meskipun menggunakan juri yang lebih kecil.
Untuk apa itu bisa digunakan:
• Menyempurnakan chatbot pendukung keputusan klinis dengan rubrik keselamatan medis.
• Pelatihan analisis kebijakan atau model penalaran hukum di mana beberapa faktor subjektif penting.
Ringkasan terperinci:
Rubrik sebagai Hadiah (RaR) diusulkan sebagai alternatif yang dapat ditafsirkan untuk model penghargaan berbasis preferensi buram saat menyempurnakan model bahasa besar (LLM) dengan pembelajaran penguatan. Alih-alih meminta manusia untuk memberi peringkat seluruh jawaban, pakar domain (atau LLM yang kuat yang dipandu oleh referensi ahli) menulis daftar periksa khusus 7-20 kriteria biner yang menangkap fakta penting, langkah penalaran, gaya, dan jebakan umum. Setiap kriteria ditandai Esensial, Penting, Opsional, atau Jebakan dan diberi bobot. Selama pelatihan tentang kebijakan, model kebijakan (Qwen-2.5-7B dalam makalah) mengambil sampel 16 jawaban kandidat per prompt. Hakim LLM terpisah (GPT-4o-mini atau lebih kecil) diminta untuk menilai setiap kriteria secara terpisah (agregasi eksplisit) atau untuk membaca rubrik lengkap dan mengeluarkan satu peringkat Likert holistik 1–10 (agregasi implisit). Skor yang dinormalisasi menjadi hadiah skalar dan kebijakan diperbarui dengan algoritma GRPO.
Para penulis mengkurasi dua set pelatihan 20 k-contoh—RaR-Medical-20k dan RaR-Science-20k—dengan menggabungkan korpus penalaran medis dan sains yang ada dan menghasilkan rubrik sintetis dengan o3-mini atau GPT-4o. Evaluasi pada HealthBench-1k (penalaran medis) dan GPQA-Diamond (fisika/kimia/biologi tingkat pascasarjana) menunjukkan bahwa RaR-Implisit menghasilkan peningkatan relatif hingga 28% dibandingkan hadiah sederhana Likert saja dan mencocokkan atau melebihi imbalan yang dihitung dengan membandingkan dengan jawaban referensi ahli. Agregasi implisit secara konsisten mengungguli eksplisit, menunjukkan bahwa membiarkan juri memutuskan cara menggabungkan kriteria bekerja lebih baik daripada bobot yang disetel dengan tangan tetap.
Pengawasan rubrik juga membantu model hakim yang lebih kecil. Ketika diminta untuk menilai jawaban yang disukai versus yang terganggu, juri yang dipandu rubrik memilih jawaban yang disukai jauh lebih andal daripada hakim khusus Likert berukuran sama, mempersempit kesenjangan antara evaluator 7 B dan GPT-4o-mini. Ablasi mengungkapkan bahwa rubrik khusus prompt mengalahkan rubrik generik, beberapa kriteria mengalahkan daftar khusus esensial, dan akses ke referensi ahli saat menyusun rubrik secara material meningkatkan kinerja hilir. Bahkan rubrik sintetis yang ditulis manusia dan berkualitas tinggi berkinerja setara, menunjukkan skalabilitas.
RaR menggeneralisasi Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR): ketika rubrik hanya memiliki satu pemeriksaan kebenaran, kerangka kerja runtuh ke hadiah pencocokan persis RLVR. Dengan mengekspos setiap aspek kualitas secara eksplisit, RaR lebih transparan, dapat diaudit, dan berpotensi lebih sulit untuk diretas hadiah daripada model hadiah saraf. Penulis membahas perluasan tugas agen dunia nyata, kurikulum dinamis melalui bobot rubrik, dan studi ketahanan formal.
--
Lebih dari 500.000 halaman penelitian diterbitkan di @arXiv setiap bulan. Tersembunyi di dalamnya adalah wawasan terobosan yang dapat mengubah pekerjaan Anda — tetapi menemukannya seperti mencari berlian di lautan data. @yesnoerror memotong kebisingan untuk memunculkan penelitian yang paling berdampak untuk proyek, investasi, dan penemuan Anda.
$yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Daftar untuk akses awal di sini:
2,74K
Teratas
Peringkat
Favorit