Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Alguien ha intentado RL para reescribir indicaciones para modelos de razonamiento para mejorar aún más los resultados?
Supongo que sí, se siente bastante obvio, pero si no, quiero probarlo.
Si conoces algún trabajo existente aquí, por favor lmk para que no vuelva a hacer algo que la gente ya ha hecho.
Con esto, quiero decir:
- Tome un modelo de razonamiento congelado ya entrenado (es decir, o4-mini a través de API)
- Agregue un LLM más pequeño que tome un mensaje y lo reescriba para mejorar el rendimiento del modelo congelado
- Actualice los pesos de los LLM más pequeños, mantenga congelados los LLM más grandes
La esperanza es que el pequeño LLM aprenda a "dirigir" el CoT del modelo más grande congelado mejor de lo que podría hacerlo un humano, aumentando el rendimiento.
@corbtt me recordó este trabajo de @brendanh0gan...
Brendan, ¿cómo te fue? Parece bastante similar a lo que estoy pensando aquí.

3 jul, 08:26
Los modelos grandes son grandes agentes, pero a menudo son demasiado grandes, cerrados o delicados para afinarlos
Idea: Entrena a un modelo pequeño para crear el contexto para un modelo grande congelado, puntúa los resultados del modelo grande, úsalo como recompensa para el pequeño
grpo para el ajuste del contexto. más abajo

17.5K
Populares
Ranking
Favoritas