Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hat jemand versucht, RL zu nutzen, um Eingabeaufforderungen für Denkmodelle umzuschreiben, um die Ausgaben weiter zu verbessern?
Ich nehme an, das wurde schon gemacht, es scheint ziemlich offensichtlich zu sein, aber falls nicht, möchte ich es ausprobieren.
Wenn ihr von bestehenden Arbeiten dazu wisst, lasst es mich bitte wissen, damit ich nicht etwas wiederhole, was andere bereits gemacht haben!
Damit meine ich:
- Nimm ein bereits trainiertes, eingefrorenes Denkmodell (d.h. o4-mini über API)
- Füge ein kleineres LLM hinzu, das einen Prompt entgegennimmt und ihn umschreibt, um die Leistung des eingefrorenen Modells zu verbessern
- Aktualisiere die Gewichte des kleineren LLM, während das größere LLM eingefroren bleibt
Die Hoffnung ist, dass das kleine LLM lernen würde, die CoT des eingefrorenen größeren Modells besser zu "steuern" als ein Mensch, was die Leistung erhöht.
@corbtt hat mich an diese Arbeit von @brendanh0gan erinnert...
Brendan, wie ist es gelaufen? Scheint ziemlich ähnlich zu dem zu sein, was ich hier denke.

3. Juli, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,49K
Top
Ranking
Favoriten