Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
Forschung @meta @cornell // Sprachmodelle, Informationstheorie, Wissenschaft der KI
Hier ist etwas kostenlose Alpha:
Wenn wir RL zu lange nach dem Pretraining durchführen, werden wir sicherlich Parameter überschreiben und anfangen, Dinge zu vergessen.
Im ursprünglichen InstructGPT-Papier mischte ihr bestes Modell RLHF mit Pretraining-Gradienten, um genau dieses Modelldrift-Problem zu vermeiden.
Dennoch macht das heutzutage niemand mehr. Sicher, es ist eine bestimmte Instanziierung (Gradientenmischung) einer breiteren Idee (Vergessen zu vermeiden), aber es scheint eine stark übersehene Denkweise zu sein, während wir immer mehr Schritte von RL durchführen.
Zum Beispiel siehe das aktuelle ProRL-Papier. Sie machen jetzt über 1000 Schritte von GRPO mit einer nicht trivialen Lernrate und ohne Strafe für Abweichungen vom ursprünglichen Modell. Die Schaltkreise, die während des Pretrainings im Modell aufgebaut wurden, beginnen sicherlich zu verfallen. Und wenn nicht, werden sie nach 10k oder 100k RL-Schritten verfallen.
Ich vermute, diese Idee wird irgendwann wieder aufkommen; sie machen das wahrscheinlich bereits in den großen Laboren.



51,13K
das scheint wirklich wichtig zu sein:
es ist völlig plausibel, dass ein Modell IMO Gold ohne *irgendein* Reinforcement Learning erhalten könnte, wenn es einen perfekt gestalteten Prompt gibt.
wir wissen es einfach nicht und haben nicht die Werkzeuge, um effizient durch den Prompt-Raum zu suchen. Ich bin froh zu sehen, dass zumindest jemand es versucht.

Lakshya A Agrawal29. Juli 2025
Wie vergleicht sich die Optimierung von Eingabeaufforderungen mit RL-Algorithmen wie GRPO?
GRPO benötigt Tausende von Rollouts, aber Menschen können aus wenigen Versuchen lernen – indem sie darüber nachdenken, was funktioniert hat und was nicht.
Lernen Sie GEPA kennen: einen reflektierenden Eingabeaufforderungsoptimierer, der GRPO um bis zu 20 % übertreffen kann, mit 35-mal weniger Rollouts!🧵

36,2K
hypothetische Situation -
ich bin ein KI-Unternehmen, das die Kosten für die Übertragung und Speicherung von Modellen auf null gesenkt hat. Ich kann jedem Benutzer sein eigenes Modell ohne Overhead bereitstellen.
Was mache ich? Direkt SFT benutzerspezifische Modelle auf ihren Daten? Oder RLHF basierend auf den Chat-Bewertungen? Etwas anderes?
16,56K
Das menschliche Gehirn reserviert 40 % seiner Verarbeitung ausschließlich für das Sehen. Moderne LLMs haben sich irgendwie ganz ohne dies entwickelt.

jack morris29. Juli 2025
Es ist sehr überraschend, dass fünfzehn Jahre intensiver Forschung im Bereich der Computer Vision ~nichts zur AGI beigetragen haben, außer besseren Optimierern.
Wir haben immer noch keine Modelle, die intelligenter werden, wenn wir ihnen Augen geben.
44,21K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten