A încercat cineva RL să rescrie solicitările pentru modelele de raționament pentru a îmbunătăți și mai mult rezultatele? Presupun că da, pare destul de evident, dar dacă nu, vreau să încerc. Dacă știți vreo lucrare existentă aici, vă rog lmk, astfel încât să nu refac ceva ce oamenii au făcut deja!
Prin aceasta, vreau să spun: - Luați un model de raționament deja antrenat, înghețat (adică o4-mini prin API) - Adăugați un LLM mai mic care preia un prompt și îl rescrie pentru a îmbunătăți performanța modelului înghețat - Actualizați greutățile LLM mai mici, păstrați LLM mai mare înghețat Speranța este că micul LLM va învăța să "conducă" CoT al modelului înghețat mai mare mai bine decât ar putea face un om, crescând performanța.
@corbtt mi-a amintit de această lucrare a @brendanh0gan... Brendan, cum a fost? Pare destul de asemănător cu ceea ce mă gândesc aici.
Brendan Hogan
Brendan Hogan3 iul., 08:26
Modelele mari sunt agenți grozavi, dar adesea prea mari, închiși sau delicati pentru a fi reglați fin Idee: Antrenează un model mic pentru a crea context pentru un model mare înghețat, notează rezultatele modelului mare, folosește-l ca recompensă pentru cel mic GRPO pentru reglarea contextului. Mai multe mai jos
17,61K