¿Alguien ha intentado usar RL para reescribir prompts para modelos de razonamiento y así mejorar aún más los resultados? Supongo que sí, parece bastante obvio, pero si no, quiero intentarlo. Si conoces algún trabajo existente aquí, por favor házmelo saber para no repetir algo que ya se haya hecho!
Con esto, me refiero a: - Tomar un modelo de razonamiento ya entrenado y congelado (es decir, o4-mini a través de API) - Añadir un LLM más pequeño que reciba un aviso y lo reescriba para mejorar el rendimiento del modelo congelado - Actualizar los pesos del LLM más pequeño, manteniendo el LLM más grande congelado La esperanza es que el pequeño LLM aprenda a 'dirigir' el CoT del modelo más grande congelado mejor de lo que podría hacerlo un humano, aumentando el rendimiento.
@corbtt me recordó este trabajo de @brendanh0gan... Brendan, ¿cómo te fue? Parece bastante similar a lo que estoy pensando aquí.
Brendan Hogan
Brendan Hogan3 jul, 08:26
los grandes modelos son excelentes agentes, pero a menudo son demasiado grandes, cerrados o delicados para ajustar finamente. idea: entrenar un modelo pequeño para crear contexto para un modelo grande congelado, puntuar las salidas del modelo grande, usar eso como recompensa para el pequeño. grupo para ajuste de contexto. más abajo.
17,55K