Versterkend leren stelt LLM's in staat om mensen te verslaan in programmeer- en wiskundewedstrijden en heeft recente vooruitgangen aangedreven (OpenAI's o-serie, Anthropic's Claude 4) Zal RL brede generalisatie mogelijk maken op dezelfde manier als pretraining? Niet met de huidige technieken 🧵 1/7
🔗Links hier en thread hieronder: Paper: Medium: Substack: 2/7
Bestaande evaluaties voor LLM's beoordelen voornamelijk de prestaties binnen het domein, met behulp van reinforcement post-training (RPT) modellen die zijn getraind op gemengde domeingegevens en geëvalueerd op benchmarks die nauw aansluiten bij hun trainingsdomeinen. Deze opstellingen introduceren verwarrende factoren die de ware reikwijdte van de generalisatiecapaciteit van RPT verhullen. 3/7
We introduceren een uniforme evaluatiekader dat de cross-domain generalisatie van RPT isoleert en test met behulp van 16 benchmarks op het gebied van wiskunde, code en kennisintensief redeneren. Binnen dit kader evalueren we verschillende combinaties van basismodellen en RPT-strategieën 4/7
📌 Onze belangrijkste bevindingen: 1️⃣ RPT-winsten zijn meestal in het domein 2️⃣ Wiskunde & code generaliseren goed naar elkaar 3️⃣ Gestructureerde vaardigheden gaan niet over naar ongestructureerde, kennisintensieve taken 5/7
De conclusie? RPT is krachtig maar beperkt Het verbetert de prestaties waar het is getraind, maar generaliseert slecht 6/7
Dit werk is gezamenlijk met @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai, en @jasoncbenn 7/7
2,64K