Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Мне нравится тренировать большие глубокие нейронные сети. Ранее директор по искусственному интеллекту @ Tesla, основательская команда @ OpenAI, доктор философии @ Стэнфорд.
Я упаковал проект "autoresearch" в новый самодостаточный минимальный репозиторий, если кто-то хочет поиграть в выходные. Это, по сути, ядро обучения LLM nanochat, упрощенное до версии на одном GPU, состоящей из одного файла примерно на 630 строк кода, затем:
- человек работает над подсказкой (.md)
- агент ИИ работает над кодом обучения (.py)
Цель состоит в том, чтобы разработать ваших агентов для достижения самой быстрой исследовательской прогрессии бесконечно и без вашего участия. На изображении каждая точка — это завершенный запуск обучения LLM, который длится ровно 5 минут. Агент работает в автономном цикле на ветке git и накапливает коммиты git к скрипту обучения, когда находит лучшие настройки (с меньшей валидационной потерей к концу) архитектуры нейронной сети, оптимизатора, всех гиперпараметров и т. д. Вы можете представить себе сравнение исследовательского прогресса различных подсказок, различных агентов и т. д.
Часть кода, часть научной фантастики и щепотка психоза :)

906
У меня была такая же мысль, поэтому я экспериментировал с этим в nanochat. Например, вот 8 агентов (4 claude, 4 codex), каждый с 1 GPU, проводящих эксперименты в nanochat (пытаясь удалить логит softcap без регрессии). Кратко говоря, это не работает, и это беспорядок... но на это все равно приятно смотреть :)
Я попробовал несколько настроек: 8 независимых исследователей, 1 главный ученый, который дает задания 8 младшим исследователям и т.д. Каждая исследовательская программа — это ветка git, каждый ученый создает ее в виде ветки функции, git worktrees для изоляции, простые файлы для связи, пропускаем Docker/VM для простоты на данный момент (я считаю, что инструкций достаточно, чтобы предотвратить вмешательство). Исследовательская организация работает в сетках окон tmux интерактивных сессий (как Teams), чтобы это было приятно смотреть, видеть их индивидуальную работу и "взять на себя" управление, если это необходимо, т.е. без -p.
Но причина, по которой это пока не работает, в том, что идеи агентов просто плохи с самого начала, даже при самом высоком уровне интеллекта. Они не продумывают дизайн эксперимента, они запускают немного бессмысленные вариации, они не создают сильные базовые линии и не аблатируют вещи должным образом, они не контролируют время выполнения или flops. (например, агент вчера "обнаружил", что увеличение скрытого размера сети улучшает валидационную потерю, что является совершенно ложным результатом, учитывая, что большая сеть будет иметь более низкую валидационную потерю в режиме бесконечных данных, но затем она также обучается гораздо дольше, неясно, почему мне пришлось вмешаться, чтобы указать на это). Они очень хороши в реализации любой хорошо определенной и описанной идеи, но они не генерируют их креативно.
Но цель в том, что вы теперь программируете организацию (например, "исследовательская организация") и ее отдельных агентов, так что "исходный код" — это набор подсказок, навыков, инструментов и т.д. и процессов, которые ее составляют. Например, ежедневная утренняя встреча теперь является частью "кода организации". А оптимизация предобучения nanochat — это всего лишь одна из многих задач (почти как оценка). Затем — учитывая произвольную задачу, как быстро ваша исследовательская организация генерирует прогресс в этом?

Thomas Wolf28 февр. 2026 г.
How come the NanoGPT speedrun challenge is not fully AI automated research by now?
1,34K
Топ
Рейтинг
Избранное
