DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Verstärkendes Lernen ermöglicht es LLMs, Menschen in Programmier-/Mathematikwettbewerben zu schlagen und hat kürzliche Fortschritte vorangetrieben (OpenAIs o-Serie, Anthropics Claude 4) Wird RL eine breite Generalisierung auf die gleiche Weise ermöglichen wie das Pretraining? Nicht mit den aktuellen Techniken 🧵 1/7

🔗Links hier und Thread unten: Papier: Medium: Substack: 2/7

Die bestehende Bewertung von LLMs bewertet hauptsächlich die Leistung im eigenen Bereich, indem sie Reinforcement Post-Training (RPT) Modelle verwendet, die auf gemischten Daten trainiert und an Benchmarks evaluiert werden, die eng mit ihren Trainingsbereichen verbunden sind. Diese Setups führen zu verwirrenden Faktoren, die das wahre Ausmaß der Generalisierungsfähigkeit von RPT verschleiern. 3/7

Wir stellen ein einheitliches Bewertungsrahmenwerk vor, das die bereichsübergreifende Generalisierung von RPT isoliert und mit 16 Benchmarks aus Mathematik, Programmierung und wissensintensivem Denken testet. Innerhalb dieses Rahmens bewerten wir verschiedene Kombinationen von Basis-Modellen und RPT-Strategien 4/7

📌 Unsere wichtigsten Erkenntnisse: 1️⃣ RPT-Gewinne liegen hauptsächlich im Bereich 2️⃣ Mathematik & Code lassen sich gut aufeinander verallgemeinern 3️⃣ Strukturierte Fähigkeiten lassen sich nicht auf unstrukturierte, wissensintensive Aufgaben übertragen 5/7

Die Quintessenz? RPT ist leistungsstark, aber eng gefasst Es verbessert die Leistung, wo es trainiert wurde, generalisiert jedoch schlecht 6/7

Diese Arbeit ist gemeinsam mit @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai und @jasoncbenn 7/7

2,62K

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten