Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Alguém já tentou usar RL para reescrever prompts para modelos de raciocínio a fim de melhorar ainda mais os resultados? Estou a assumir que sim, parece bastante óbvio, mas se não, quero tentar. Se souber de algum trabalho existente aqui, por favor avise-me para que eu não faça algo que já foi feito!

Com isto, quero dizer: - Pegue num modelo de raciocínio já treinado e congelado (ou seja, o o4-mini via API) - Adicione um LLM menor que recebe um prompt e o reescreve para melhorar o desempenho do modelo congelado - Atualize os pesos do LLM menor, mantendo o LLM maior congelado A esperança é que o LLM pequeno aprenda a 'guiar' o CoT do modelo maior congelado melhor do que um humano poderia, aumentando o desempenho.

@corbtt lembrou-me deste trabalho de @brendanh0gan... Brendan, como correu? Parece bastante semelhante ao que estou a pensar aqui.

17,54K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável