Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
@meta @cornell de investigación // modelos de lenguaje, teoría de la información, ciencia de la IA
aquí hay un poco de información gratuita:
si hacemos RL durante demasiado tiempo después del preentrenamiento, seguramente sobrescribiremos parámetros y comenzaremos a olvidar cosas
en el artículo original de instructGPT, su mejor modelo mezcló RLHF con gradientes de preentrenamiento para evitar exactamente este problema de deriva del modelo
y sin embargo, nadie está haciendo esto ya. claro, es una instancia particular (mezcla de gradientes) de una idea más amplia (evitar el olvido), pero parece ser una línea de pensamiento muy pasada por alto a medida que hacemos más y más pasos de RL
por ejemplo, ve el reciente artículo de ProRL. ahora están haciendo más de 1000 pasos de GRPO con una tasa de aprendizaje no trivial y sin penalización por desviarse del modelo original. los circuitos construidos dentro del modelo durante el preentrenamiento seguramente están comenzando a decaer. y si no, lo harán después de 10k o 100k pasos de RL
dudo que esta idea vuelva eventualmente; probablemente ya lo estén haciendo en los grandes laboratorios



54.79K
esto parece realmente importante:
es totalmente plausible que un modelo pudiera obtener IMO gold sin *ningún* aprendizaje por refuerzo, dado un aviso perfectamente elaborado
simplemente no lo sabemos, y carecemos de herramientas para buscar de manera eficiente a través del espacio de avisos. me alegra ver que al menos alguien está intentando

Lakshya A Agrawal29 jul 2025
¿Cómo se compara la optimización rápida con algoritmos de RL como GRPO?
GRPO necesita miles de implementaciones, pero los humanos pueden aprender de algunas pruebas, reflexionando sobre lo que funcionó y lo que no.
Conozca GEPA: un optimizador de avisos reflexivos que puede superar a GRPO hasta en un 20% con 35 veces menos implementaciones. 🧵

38.45K
situación hipotética -
soy una empresa de IA que ha reducido el costo de transferir y almacenar modelos a cero. puedo ofrecer a cada usuario su propio modelo sin costos adicionales.
¿qué hago? ¿entrenar directamente modelos específicos para el usuario con sus datos? ¿o hacer RLHF basado en las calificaciones del chat? ¿algo más?
16.59K
El cerebro humano reserva el 40% de su procesamiento exclusivamente para la visión. los LLM modernos de alguna manera evolucionaron sin esto por completo

jack morris29 jul 2025
Es muy sorprendente que quince años de investigación de visión por computadora no hayan contribuido ~ nada a AGI, excepto mejores optimizadores
Todavía no tenemos modelos que se vuelvan más inteligentes cuando les damos ojos
44.24K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas