Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Что второй документ с множеством секретов RL flywheel и многомодальным рассуждением в стиле o1 выпал, не было у меня в списке на сегодня. Документы Kimi (другой стартап) и DeepSeek удивительно сошлись в схожих выводах:
> Нет необходимости в сложном дереве поиска, как MCTS. Просто линейно обрабатывайте след мыслей и делайте старое доброе авторегрессионное предсказание;
> Нет необходимости в функциях ценности, которые требуют еще одной дорогой копии модели;
> Нет необходимости в плотном моделировании вознаграждений. Полагайтесь как можно больше на истинные данные, конечный результат.
Различия:
> DeepSeek использует подход AlphaZero - полностью автозапуск через RL без человеческого ввода, т.е. "холодный старт". Kimi использует подход AlphaGo-Master: легкая SFT для разогрева через промпт-инженерные следы CoT.
> Веса DeepSeek имеют лицензию MIT (лидерство в мысли!); у Kimi пока нет выпуска модели.
> Kimi демонстрирует сильные многомодальные результаты (!) на таких бенчмарках, как MathVista, которые требуют визуального понимания геометрии, тестов IQ и т.д.
> Документ Kimi содержит гораздо больше деталей о проектировании системы: инфраструктура RL, гибридный кластер, песочница кода, стратегии параллелизма; и детали обучения: длинный контекст, сжатие CoT, учебный план, стратегия выборки, генерация тестовых случаев и т.д.
Оптимистичное чтение в праздничный день!

Ссылка на белую книгу:
300,46K
Топ
Рейтинг
Избранное