DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

El aprendizaje por refuerzo permite a los LLMs superar a los humanos en competiciones de programación/matemáticas y ha impulsado avances recientes (la serie o de OpenAI, Claude 4 de Anthropic) ¿Permitirá el RL una generalización amplia de la misma manera que lo hace el preentrenamiento? No con las técnicas actuales 🧵 1/7

🔗Enlaces aquí y hilo abajo: Documento: Medium: Substack: 2/7

La evaluación existente para los LLMs evalúa principalmente el rendimiento en dominio, utilizando modelos de entrenamiento posterior por refuerzo (RPT) entrenados en datos de dominios mixtos y evaluados en benchmarks estrechamente alineados con sus dominios de entrenamiento. Estas configuraciones introducen factores confusos que oscurecen la verdadera extensión de la capacidad de generalización de RPT. 3/7

Presentamos un marco de evaluación unificado que aísla y prueba la generalización entre dominios de RPT utilizando 16 benchmarks en matemáticas, código y razonamiento intensivo en conocimiento. Dentro de este marco, evaluamos varias combinaciones de modelos base y estrategias de RPT 4/7

📌 Nuestros hallazgos clave: 1️⃣ Las ganancias de RPT son principalmente en el dominio 2️⃣ Las matemáticas y el código se generalizan bien entre sí 3️⃣ Las habilidades estructuradas no se transfieren a tareas no estructuradas e intensivas en conocimiento 5/7

¿La conclusión? RPT es potente pero limitado Mejora el rendimiento donde se entrena, pero generaliza mal 6/7

Este trabajo es conjunto con @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai y @jasoncbenn 7/7

2,63K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado