Быстрые прогнозы. 2025: Модель с параметрами более 100B, обученная на d-сетях. 2026: Первая модель с параметрами более 50B, *мультимодальная*, обученная на добровольных GPU. 2027-8: При прочих равных, воспроизведена конкурентоспособная модель GPT-3 с плотностью 175B. 2030+: Настоящий "фронтир" децентрализованного запуска, более 1T параметров.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510 июн. 2025 г.
Мысли/прогнозы по децентрализованному обучению ИИ, 2025. 1. Одно можно сказать точно: мы определенно находимся в другом мире с децентрализованным обучением ИИ, чем 18 месяцев назад. Тогда децентрализованное обучение было невозможным, а сейчас оно уже на рынке и стало отдельной областью. 2. Не обманывайтесь, конечная цель д-обучения — обучить конкурентоспособные, передовые модели на д-сетях. Таким образом, мы только в начале нашего конкурентного пути, но движемся быстро. 3. Теперь существует консенсус, что мы можем предварительно и постфактум обучать модели с многомиллиардными параметрами (в основном LLM, в основном архитектуры трансформеров) на д-сетях. Текущий уровень технологий достигает ~100B, верхняя граница которой видна, но еще не была продемонстрирована. 4. Теперь существует консенсус, что мы можем довольно легко обучать модели с <10B параметрами на д-сетях. Также были конкретные примеры (в основном от @gensynai @PrimeIntellect @NousResearch), где обучались или обучаются модели с 10B, 32B, 40B параметрами. Постобучающая сварм @gensynai работает с моделями до 72B параметров. 5. Инновация @PluralisHQ теперь опровергла "невозможность" масштабируемого предварительного обучения на д-сетях, устранив узкое место неэффективности коммуникации. Однако, сырьевые FLOPs, надежность и проверяемость остаются узкими местами для этих типов сетей — проблемы, которые вполне решаемы, но для их технического разрешения потребуется время. С учетом Протокольного Обучения от Pluralis, я думаю, мы сможем достичь моделей ~100B в течение 6-12 месяцев. 6. Как нам перейти от 100B к 300B параметрам? Я думаю, нам нужно найти способы эффективно и плавно разбивать параметры и поддерживать память отдельных устройств относительно низкой (например, <32GB памяти на устройство). Я думаю, нам нужно достичь 20 EFlops в сети; это означает что-то вроде 10-20K потребительских устройств, работающих в течение 4-6 недель на обучении. В целом, д-обучение готово стать очень захватывающей областью. Некоторые из его инноваций уже рассматриваются для широких приложений ИИ.
3,7K