Что второй документ с множеством секретов RL flywheel и многомодальным рассуждением в стиле o1 выпал, не было у меня в списке на сегодня. Документы Kimi (другой стартап) и DeepSeek удивительно сошлись в схожих выводах: > Нет необходимости в сложном дереве поиска, как MCTS. Просто линейно обрабатывайте след мыслей и делайте старое доброе авторегрессионное предсказание; > Нет необходимости в функциях ценности, которые требуют еще одной дорогой копии модели; > Нет необходимости в плотном моделировании вознаграждений. Полагайтесь как можно больше на истинные данные, конечный результат. Различия: > DeepSeek использует подход AlphaZero - полностью автозапуск через RL без человеческого ввода, т.е. "холодный старт". Kimi использует подход AlphaGo-Master: легкая SFT для разогрева через промпт-инженерные следы CoT. > Веса DeepSeek имеют лицензию MIT (лидерство в мысли!); у Kimi пока нет выпуска модели. > Kimi демонстрирует сильные многомодальные результаты (!) на таких бенчмарках, как MathVista, которые требуют визуального понимания геометрии, тестов IQ и т.д. > Документ Kimi содержит гораздо больше деталей о проектировании системы: инфраструктура RL, гибридный кластер, песочница кода, стратегии параллелизма; и детали обучения: длинный контекст, сжатие CoT, учебный план, стратегия выборки, генерация тестовых случаев и т.д. Оптимистичное чтение в праздничный день!
Ссылка на белую книгу:
300,46K