Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

nanochat тепер навчає модель можливостей GPT-2 всього за 2 години на одному вузлі 8XH100 (менше за ~3 години місяць тому). Стаємо набагато ближче до ~інтерактивного! Було внесено багато налаштувань і функцій (fp8), але найбільша різниця — це перемикання датасету з FineWeb-edu на NVIDIA ClimbMix (чудова робота, NVIDIA!). Я пробував Olmo, FineWeb, DCLM, але всі вони призвели до регресій, ClimbMix працював дуже добре одразу (настільки, що я трохи підозрюю щодо Goodharting, хоча читати статтю здається ~нормальним). До речі, після кількох спроб налаштувань, тепер у мене є AI-агенти, які автоматично ітерують наночат, тож я просто залишу це на деякий час, піду трохи розслаблюся і насолоджуся відчуттям пост-agi :). Візуалізовано тут як приклад: 110 змін, внесених за останні ~12 годин, що знизило втрати валідації з 0.862415 до 0.858039 для моделі d12, без витрат на час настінного тактового часу. Агент працює над гілкою функцій, випробовує ідеї, об'єднує їх, коли вони працюють, і ітерується. Цікаво, але за останні ~2 тижні я майже відчуваю, що більше вдосконалив «мета-налаштування», де оптимізую і налаштовую агентні потоки навіть більше, ніж безпосередньо репозиторій nanochat.

Найкращі

Рейтинг

Вибране