Qualcuno ha provato RL per riscrivere i prompt per i modelli di ragionamento per migliorare ulteriormente i risultati? Presumo di sì, sembra abbastanza ovvio, ma se non l'hanno fatto voglio provarci. Se conosci qualche lavoro esistente in merito, fammi sapere così non ripeto qualcosa che è già stato fatto!
Con questo intendo: - Prendere un modello di ragionamento già addestrato e congelato (cioè o4-mini tramite API) - Aggiungere un LLM più piccolo che riceve un prompt e lo riscrive per migliorare le prestazioni del modello congelato - Aggiornare i pesi del LLM più piccolo, mantenendo congelato il LLM più grande La speranza è che il piccolo LLM impari a 'guidare' il CoT del modello più grande congelato meglio di quanto possa fare un umano, aumentando le prestazioni.
@corbtt mi ha ricordato questo lavoro di @brendanh0gan... Brendan, come è andata? Sembra piuttosto simile a quello che sto pensando qui.
Brendan Hogan
Brendan Hogan3 lug, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,49K