nanochat теперь обучает модель возможностей GPT-2 всего за 2 часа на одном узле 8XH100 (сократив время с ~3 часов месяц назад). Мы становимся все ближе к ~интерактивному! Внесено много настроек и функций (fp8), но самое большое изменение заключалось в переключении набора данных с FineWeb-edu на NVIDIA ClimbMix (хорошая работа, NVIDIA!). Я пробовал Olmo, FineWeb, DCLM, которые все привели к регрессии, а ClimbMix сработал очень хорошо сразу (до такой степени, что я немного подозреваю о хорошей практике, хотя, читая статью, кажется, что все в порядке). В других новостях, после того как я попробовал несколько подходов к настройке, теперь у меня есть AI-агенты, которые автоматически работают с nanochat, так что я просто оставлю это работать на некоторое время, немного отдохну и насладюсь ощущением после-AGI :). Визуализировано здесь в качестве примера: 110 изменений, внесенных за последние ~12 часов, снизивших валидационную потерю с 0.862415 до 0.858039 для модели d12, без затрат по времени. Агент работает на ветке функций, пробует идеи, объединяет их, когда они срабатывают, и итеративно работает. Забавно, что за последние ~2 недели я почти чувствую, что больше работал над "мета-настройкой", где я оптимизирую и настраиваю потоки агентов даже больше, чем непосредственно над репозиторием nanochat.