Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vor drei Tagen habe ich das Autoresearch-Tuning von Nanochat für ~2 Tage mit dem Modell depth=12 laufen lassen. Es wurden ~20 Änderungen gefunden, die den Validierungsverlust verbessert haben. Ich habe diese Änderungen gestern getestet und alle waren additiv und wurden auf größere (depth=24) Modelle übertragen. Wenn ich all diese Änderungen zusammenzähle, habe ich heute gemessen, dass die "Zeit bis zu GPT-2" auf der Rangliste von 2,02 Stunden auf 1,80 Stunden sinkt (~11% Verbesserung), das wird der neue Ranglisteneintrag sein. Ja, das sind echte Verbesserungen und sie machen einen tatsächlichen Unterschied. Ich bin leicht überrascht, dass mein erster naiver Versuch bereits so gut funktioniert hat, auf dem, was ich für ein bereits ziemlich manuell gut abgestimmtes Projekt hielt.
Das ist das erste Mal für mich, weil ich es gewohnt bin, die iterative Optimierung des Trainings von neuronalen Netzwerken manuell durchzuführen. Man entwickelt Ideen, implementiert sie, überprüft, ob sie funktionieren (besserer Validierungsverlust), entwickelt neue Ideen basierend darauf, liest einige Papers zur Inspiration usw. Das ist das Brot und Butter dessen, was ich täglich seit 2 Jahrzehnten mache. Es ist verrückt zu sehen, wie der Agent diesen gesamten Workflow von Anfang bis Ende und ganz allein durch ca. 700 Änderungen autonom durchgeführt hat. Er hat wirklich die Reihenfolge der Ergebnisse von Experimenten betrachtet und das genutzt, um die nächsten zu planen. Es ist noch keine neuartige, bahnbrechende "Forschung", aber alle Anpassungen sind "echt", ich habe sie vorher nicht manuell gefunden, und sie summieren sich und haben Nanochat tatsächlich verbessert. Unter den größeren Dingen z.B.:
- Er bemerkte ein Versäumnis, dass mein parameterloses QKnorm keinen Skalierungsfaktor hatte, sodass meine Aufmerksamkeit zu diffus war. Der Agent fand Multiplikatoren, um sie zu schärfen, was auf zukünftige Arbeiten hinweist.
- Er stellte fest, dass die Value Embeddings wirklich Regularisierung mögen und ich keine anwendete (ups).
- Er fand heraus, dass meine banded attention zu konservativ war (ich habe vergessen, sie abzustimmen).
- Er stellte fest, dass die AdamW-Betas alle durcheinander waren.
- Er stimmte den Gewichtungsabfallzeitplan ab.
- Er stimmte die Netzwerkinitialisierung ab.
Das ist zusätzlich zu all dem Tuning, das ich bereits über einen längeren Zeitraum durchgeführt habe. Der genaue Commit ist hier, aus dieser "Runde 1" des Autoresearch. Ich werde "Runde 2" starten, und parallel schaue ich, wie mehrere Agenten zusammenarbeiten können, um Parallelität freizuschalten.
Alle LLM-Frontier-Labore werden dies tun. Es ist der letzte Bosskampf. Es ist natürlich viel komplexer im großen Maßstab - man hat nicht einfach eine einzelne train.py-Datei, die man abstimmen kann. Aber es zu tun ist "einfach Ingenieurwesen" und es wird funktionieren. Man startet einen Schwarm von Agenten, lässt sie zusammenarbeiten, um kleinere Modelle abzustimmen, fördert die vielversprechendsten Ideen auf zunehmend größere Maßstäbe und Menschen (optional) tragen an den Rändern bei.
Und allgemeiner gesagt, *jede* Metrik, die Ihnen wichtig ist und die vernünftig effizient zu bewerten ist (oder die effizientere Proxy-Metriken hat, wie das Training eines kleineren Netzwerks), kann von einem Agentenschwarm autoresearched werden. Es lohnt sich zu überlegen, ob Ihr Problem auch in diese Kategorie fällt.

Top
Ranking
Favoriten
