Aquí está el Digest de Investigación Ritual de esta semana, un boletín que cubre el trabajo más reciente en el mundo de los LLM y la intersección de la privacidad, la IA y los protocolos descentralizados. Esta semana, presentamos una edición de ICML, cubriendo algunos de los muchos artículos que nos gustaron en la conferencia.
Tira los dados y mira antes de saltar: Superando los límites creativos de la predicción del siguiente token. En este artículo, exploran los límites creativos de la predicción del siguiente token en modelos de lenguaje grandes utilizando tareas algorítmicas gráficas "mínimas" y abiertas.
Lo miran a través de dos lentes creativas: combinacional y exploratorio. Los modelos entrenados en el siguiente token son en gran medida menos creativos y memorizan mucho más que los de múltiples tokens. También exploran la condicionamiento de semillas como un método para producir diversidad significativa en las generaciones de LLM.
rStar-Math: Los pequeños LLMs pueden dominar el razonamiento matemático con un pensamiento profundo auto-evolutivo Este artículo emplea el ajuste fino auto-evolutivo para mejorar la calidad de los datos y refinar gradualmente el modelo de recompensa del proceso utilizando MCTS y pequeños LMs.
Utiliza un proceso de auto-evolución que comienza pequeño con soluciones verificadas generadas y entrena iterativamente mejores modelos. La síntesis de datos se realiza con un código aumentado de Cadena de Pensamiento. Mejora Qwen2.5-Math-7B del 58.8% al 90.0% y Phi3-mini-3.8B del 41.4% al 86.4%.
Entrenando a un Agente Generalmente Curioso Este documento presenta Paprika, un método para entrenar LLMs para convertirse en tomadores de decisiones generales que pueden resolver nuevas tareas sin necesidad de ejemplos previos. Se entrenan en grupos de tareas diversas para enseñar la recopilación de información y la toma de decisiones.
El RL para LLMs se centra en interacciones de un solo turno, por lo que a menudo rinden de manera subóptima en la toma de decisiones secuencial con interacciones de múltiples turnos a lo largo de diferentes horizontes temporales. Paprika genera trayectorias diversas con muestreo de alta temperatura y aprende de las exitosas.
¿Cómo obtienen su poder (leyes) los grandes monos de lenguaje? Este documento examina el concepto de leyes de potencia en los LLM y proporciona un marco matemático para entender cómo y por qué el rendimiento de los modelos de lenguaje mejora con un mayor cómputo de inferencia.
CVE-Bench: Un benchmark para la capacidad de los agentes de IA para explotar Este trabajo introduce un benchmark de ciberseguridad del mundo real al crear primero un sandbox sistemático. Para cada vulnerabilidad, crean contenedores diseñados para alojar una aplicación con vulnerabilidades expuestas.
Luego introducen CVE-Bench, el primer estándar de ciberseguridad del mundo real para agentes LLM. En CVE-Bench, recopilan 40 Vulnerabilidades y Exposiciones Comunes (CVE) en la Base de Datos Nacional de Vulnerabilidades.
Otros documentos que nos gustaron: - Los agentes de IA necesitan delegación autenticada - LLM-SRBench: Benchmark para el descubrimiento de ecuaciones científicas con LLMs - El aprendizaje automático se encuentra con la combinatoria algebraica - Escalar el cómputo en el tiempo de prueba sin verificación o RL es subóptimo
Síguenos en @ritualdigest para más información sobre todo lo relacionado con la investigación en cripto x IA, y en @ritualnet para aprender más sobre lo que Ritual está construyendo.
5,16K