Que um *segundo* artigo tenha sido lançado com toneladas de segredos do flywheel de RL e raciocínio *multimodal* no estilo o1 não estava no meu bingo hoje. Os artigos da Kimi (outra startup) e da DeepSeek convergiram notavelmente em descobertas semelhantes: > Não há necessidade de busca em árvore complexa como MCTS. Basta linearizar o traço de pensamento e fazer uma boa previsão autoregressiva; > Não há necessidade de funções de valor que exijam outra cópia cara do modelo; > Não há necessidade de modelagem de recompensa densa. Confiar o máximo possível na verdade de base, no resultado final. Diferenças: > A DeepSeek adota a abordagem AlphaZero - bootstrap puro através de RL sem input humano, ou seja, "cold start". A Kimi adota a abordagem AlphaGo-Master: SFT leve para aquecer através de traços de CoT projetados por prompt. > Os pesos da DeepSeek são licenciados pelo MIT (liderança de pensamento!); a Kimi ainda não tem um lançamento de modelo. > A Kimi mostra um desempenho multimodal forte (!) em benchmarks como MathVista, que requer compreensão visual de geometria, testes de QI, etc. > O artigo da Kimi tem MUITO mais detalhes sobre o design do sistema: infraestrutura de RL, cluster híbrido, sandbox de código, estratégias de paralelismo; e detalhes de aprendizado: contexto longo, compressão de CoT, currículo, estratégia de amostragem, geração de casos de teste, etc. Leituras otimistas em um feriado!
Link do whitepaper:
300,45K