i grandi modelli sono ottimi agenti ma spesso troppo grandi, chiusi o delicati per essere affinati idea: addestrare un piccolo modello per creare contesto per un grande modello congelato, valutare le uscite del grande modello, usare questo come ricompensa per il piccolo grpo per l'affinamento del contesto. maggiori dettagli di seguito
11,61K