Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qualcuno ha provato RL per riscrivere i prompt per i modelli di ragionamento per migliorare ulteriormente i risultati?
Presumo di sì, sembra abbastanza ovvio, ma se non l'hanno fatto voglio provarci.
Se conosci qualche lavoro esistente in merito, fammi sapere così non ripeto qualcosa che è già stato fatto!
Con questo intendo:
- Prendere un modello di ragionamento già addestrato e congelato (cioè o4-mini tramite API)
- Aggiungere un LLM più piccolo che riceve un prompt e lo riscrive per migliorare le prestazioni del modello congelato
- Aggiornare i pesi del LLM più piccolo, mantenendo congelato il LLM più grande
La speranza è che il piccolo LLM impari a 'guidare' il CoT del modello più grande congelato meglio di quanto possa fare un umano, aumentando le prestazioni.
@corbtt mi ha ricordato questo lavoro di @brendanh0gan...
Brendan, come è andata? Sembra piuttosto simile a quello che sto pensando qui.

3 lug, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,49K
Principali
Ranking
Preferiti