Я провел 71 быстрый эксперимент на 500 из 13,000 шагов для вызова OpenAI 1. Смесь экспертов — абсолютный ПОБЕДИТЕЛЬ (очень удивительно, так как это не должно быть для маленьких LLM) > Количество экспертов имеет наибольшее значение. 4 (лучший) > 3 >> 2. 2. Непривязанные встраивания работают, привязанные — катастрофа 3. Глубинная свертка — МЕРТВЫЙ КОНЕЦ Инсайты: 1. 4-экспертная MOE + протекающий ReLU -> -0.048 BPB, явный победитель 2. Непривязанные факторные встраивания (bn128) -> -0.031 BPB, стоит комбинировать с MOE 3. Комбо MOE + QAT -> сохраняет качество квантизации для подачи мертвые концы 1. Глубинная свертка -> каждый вариант вредит, большие ядра вредят больше 2. Привязанные факторные встраивания -> катастрофически, особенно на маленьких узких местах 3. Обмен весами -> не конкурентоспособен с MOE по качеству 4. Свертка + любые комбинации — усугубляет ущерб Следующие шаги 1. Проверить MOE 4e + протекающий на 2000-5000 шагах, несколько семян 2. Протестировать MOE 4e + протекающий + непривязанный bn128 — две самые большие победы могут сложиться 3. Полный запуск (13780 шагов) лучшей комбинации, чтобы увидеть, побьет ли она 1.2244 BPB в таблице лидеров 71 эксперимент, 3 GPU, ~500 шагов каждый. Вук Рошич...