Alguém já tentou usar RL para reescrever prompts para modelos de raciocínio a fim de melhorar ainda mais os resultados? Estou a assumir que sim, parece bastante óbvio, mas se não, quero tentar. Se souber de algum trabalho existente aqui, por favor avise-me para que eu não faça algo que já foi feito!
Com isto, quero dizer: - Pegue num modelo de raciocínio já treinado e congelado (ou seja, o o4-mini via API) - Adicione um LLM menor que recebe um prompt e o reescreve para melhorar o desempenho do modelo congelado - Atualize os pesos do LLM menor, mantendo o LLM maior congelado A esperança é que o LLM pequeno aprenda a 'guiar' o CoT do modelo maior congelado melhor do que um humano poderia, aumentando o desempenho.
@corbtt lembrou-me deste trabalho de @brendanh0gan... Brendan, como correu? Parece bastante semelhante ao que estou a pensar aqui.
Brendan Hogan
Brendan Hogan3/07, 08:26
grandes modelos são ótimos agentes, mas muitas vezes são grandes demais, fechados ou delicados para serem ajustados ideia: treinar um modelo pequeno para criar contexto para um modelo grande congelado, avaliar as saídas do modelo grande, usar isso como recompensa para o pequeno grupo para ajuste de contexto. mais abaixo
17,54K