Hat jemand versucht, RL zu nutzen, um Eingabeaufforderungen für Denkmodelle umzuschreiben, um die Ausgaben weiter zu verbessern? Ich nehme an, das wurde schon gemacht, es scheint ziemlich offensichtlich zu sein, aber falls nicht, möchte ich es ausprobieren. Wenn ihr von bestehenden Arbeiten dazu wisst, lasst es mich bitte wissen, damit ich nicht etwas wiederhole, was andere bereits gemacht haben!
Damit meine ich: - Nimm ein bereits trainiertes, eingefrorenes Denkmodell (d.h. o4-mini über API) - Füge ein kleineres LLM hinzu, das einen Prompt entgegennimmt und ihn umschreibt, um die Leistung des eingefrorenen Modells zu verbessern - Aktualisiere die Gewichte des kleineren LLM, während das größere LLM eingefroren bleibt Die Hoffnung ist, dass das kleine LLM lernen würde, die CoT des eingefrorenen größeren Modells besser zu "steuern" als ein Mensch, was die Leistung erhöht.
@corbtt hat mich an diese Arbeit von @brendanh0gan erinnert... Brendan, wie ist es gelaufen? Scheint ziemlich ähnlich zu dem zu sein, was ich hier denke.
Brendan Hogan
Brendan Hogan3. Juli, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,49K