Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alguém já tentou usar RL para reescrever prompts para modelos de raciocínio a fim de melhorar ainda mais os resultados?
Estou a assumir que sim, parece bastante óbvio, mas se não, quero tentar.
Se souber de algum trabalho existente aqui, por favor avise-me para que eu não faça algo que já foi feito!
Com isto, quero dizer:
- Pegue num modelo de raciocínio já treinado e congelado (ou seja, o o4-mini via API)
- Adicione um LLM menor que recebe um prompt e o reescreve para melhorar o desempenho do modelo congelado
- Atualize os pesos do LLM menor, mantendo o LLM maior congelado
A esperança é que o LLM pequeno aprenda a 'guiar' o CoT do modelo maior congelado melhor do que um humano poderia, aumentando o desempenho.
@corbtt lembrou-me deste trabalho de @brendanh0gan...
Brendan, como correu? Parece bastante semelhante ao que estou a pensar aqui.

3/07, 08:26
grandes modelos são ótimos agentes, mas muitas vezes são grandes demais, fechados ou delicados para serem ajustados
ideia: treinar um modelo pequeno para criar contexto para um modelo grande congelado, avaliar as saídas do modelo grande, usar isso como recompensa para o pequeno
grupo para ajuste de contexto. mais abaixo

17,54K
Top
Classificação
Favoritos