Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Versterkend leren stelt LLM's in staat om mensen te verslaan in programmeer- en wiskundewedstrijden en heeft recente vooruitgangen aangedreven (OpenAI's o-serie, Anthropic's Claude 4)
Zal RL brede generalisatie mogelijk maken op dezelfde manier als pretraining? Niet met de huidige technieken
🧵 1/7
🔗Links hier en thread hieronder:
Paper:
Medium:
Substack:
2/7
Bestaande evaluaties voor LLM's beoordelen voornamelijk de prestaties binnen het domein, met behulp van reinforcement post-training (RPT) modellen die zijn getraind op gemengde domeingegevens en geëvalueerd op benchmarks die nauw aansluiten bij hun trainingsdomeinen. Deze opstellingen introduceren verwarrende factoren die de ware reikwijdte van de generalisatiecapaciteit van RPT verhullen.
3/7
We introduceren een uniforme evaluatiekader dat de cross-domain generalisatie van RPT isoleert en test met behulp van 16 benchmarks op het gebied van wiskunde, code en kennisintensief redeneren. Binnen dit kader evalueren we verschillende combinaties van basismodellen en RPT-strategieën
4/7

📌 Onze belangrijkste bevindingen:
1️⃣ RPT-winsten zijn meestal in het domein
2️⃣ Wiskunde & code generaliseren goed naar elkaar
3️⃣ Gestructureerde vaardigheden gaan niet over naar ongestructureerde, kennisintensieve taken
5/7

De conclusie? RPT is krachtig maar beperkt
Het verbetert de prestaties waar het is getraind, maar generaliseert slecht
6/7
Dit werk is gezamenlijk met @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai, en @jasoncbenn
7/7
2,64K
Boven
Positie
Favorieten