Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bauen @EurekaLabsAI. Zuvor Director of AI @ Tesla, Gründungsteam @ OpenAI, CS231n/PhD @ Stanford. Ich trainiere gerne große tiefe neuronale Netze.
Ich habe das Projekt "autoresearch" in ein neues, eigenständiges Minimal-Repo verpackt, falls die Leute am Wochenende damit spielen möchten. Es ist im Grunde der Kern des LLM-Trainings von nanochat, der auf eine Version mit einer GPU und einer Datei von ~630 Zeilen Code reduziert wurde, dann:
- der Mensch arbeitet am Prompt (.md)
- der KI-Agent arbeitet am Trainingscode (.py)
Das Ziel ist es, Ihre Agenten so zu konstruieren, dass sie unendlich schnell Fortschritte in der Forschung machen, ohne dass Sie selbst involviert sind. Auf dem Bild ist jeder Punkt ein vollständiger LLM-Trainingslauf, der genau 5 Minuten dauert. Der Agent arbeitet in einer autonomen Schleife auf einem Git-Feature-Branch und sammelt Git-Commits zum Trainingsskript, während er bessere Einstellungen (mit niedrigerem Validierungsverlust am Ende) der Architektur des neuronalen Netzwerks, des Optimierers, aller Hyperparameter usw. findet. Sie können sich vorstellen, den Forschungsfortschritt verschiedener Prompts, verschiedener Agenten usw. zu vergleichen.
Teil Code, Teil Sci-Fi und eine Prise Psychose :)

861
Ich hatte denselben Gedanken, also habe ich damit in nanochat experimentiert. Zum Beispiel hier sind 8 Agenten (4 Claude, 4 Codex), jeder mit 1 GPU, die nanochat-Experimente durchführen (versuchen, den Logit-Softcap ohne Regression zu löschen). Die Zusammenfassung ist, dass es nicht funktioniert und es ein Chaos ist... aber es sieht immer noch sehr schön aus :)
Ich habe ein paar Setups ausprobiert: 8 unabhängige Solo-Forscher, 1 Chefwissenschaftler, der 8 Junior-Forschern Aufgaben gibt, usw. Jedes Forschungsprogramm ist ein Git-Branch, jeder Wissenschaftler forked es in einen Feature-Branch, Git-Arbeitsbäume für Isolation, einfache Dateien für die Kommunikation, Docker/VMs vorerst aus Einfachheitsgründen überspringen (ich finde, dass Anweisungen ausreichen, um Interferenzen zu verhindern). Die Forschungsorganisation läuft in tmux-Fenster-Gittern interaktiver Sitzungen (wie Teams), sodass es schön anzusehen ist, ihre individuellen Arbeiten zu sehen und "übernehmen" zu können, wenn nötig, d.h. kein -p.
Aber okay, der Grund, warum es bisher nicht funktioniert, ist, dass die Ideen der Agenten einfach von Anfang an ziemlich schlecht sind, selbst bei höchster Intelligenz. Sie denken nicht sorgfältig über das Experimentdesign nach, sie führen ein bisschen unsinnige Variationen durch, sie erstellen keine starken Baselines und blenden die Dinge nicht richtig ab, sie kontrollieren nicht sorgfältig für Laufzeit oder Flops. (Nur als Beispiel, ein Agent hat gestern "entdeckt", dass die Erhöhung der versteckten Größe des Netzwerks den Validierungsverlust verbessert, was ein völlig spurious Ergebnis ist, da ein größeres Netzwerk im unendlichen Datenregime einen niedrigeren Validierungsverlust haben wird, aber dann trainiert es auch viel länger, es ist unklar, warum ich darauf hinweisen musste). Sie sind sehr gut darin, jede gegebene gut definierte und beschriebene Idee umzusetzen, aber sie generieren sie nicht kreativ.
Aber das Ziel ist, dass Sie jetzt eine Organisation (z.B. eine "Forschungsorganisation") und ihre einzelnen Agenten programmieren, sodass der "Quellcode" die Sammlung von Eingabeaufforderungen, Fähigkeiten, Werkzeugen usw. und Prozessen ist, die sie ausmachen. Zum Beispiel ist ein tägliches Standup am Morgen jetzt Teil des "Org-Codes". Und die Optimierung des nanochat-Vortrainings ist nur eine der vielen Aufgaben (fast wie eine Bewertung). Dann - gegeben eine beliebige Aufgabe, wie schnell generiert Ihre Forschungsorganisation Fortschritte darauf?

Thomas Wolf28. Feb. 2026
Warum ist die NanoGPT Speedrun-Herausforderung bis jetzt nicht vollständig durch KI automatisierte Forschung?
1,25K
Top
Ranking
Favoriten
