Que um * segundo * papel caiu com toneladas de segredos do volante RL e raciocínio * multimodal * no estilo o1 não está no meu cartão de bingo hoje. Os artigos de Kimi (outra startup) e DeepSeek convergiram notavelmente em descobertas semelhantes: > Não há necessidade de pesquisa de árvore complexa como o MCTS. Apenas linearize o traço de pensamento e faça a boa e velha previsão autorregressiva; > Não há necessidade de funções de valor que exijam outra cópia cara do modelo; > Não há necessidade de modelagem de recompensa densa. Confie o máximo possível na verdade do terreno, no resultado final. Diferenças: > DeepSeek faz a abordagem AlphaZero - puramente bootstrap através de RL sem entrada humana, ou seja, "inicialização a frio". Kimi faz a abordagem AlphaGo-Master: SFT leve para aquecer por meio de rastreamentos CoT projetados por prompt. > pesos do DeepSeek são licença MIT (liderança de pensamento!); Kimi ainda não tem um lançamento de modelo. > Kimi mostra um forte desempenho multimodal (!) em benchmarks como o MathVista, que requer compreensão visual de geometria, testes de QI, etc. > artigo Kimi tem MUITO mais detalhes sobre o design do sistema: infraestrutura RL, cluster híbrido, sandbox de código, estratégias de paralelismo; e detalhes de aprendizagem: contexto longo, compressão CoT, currículo, estratégia de amostragem, geração de casos de teste, etc. Leituras otimistas em um feriado!
Link do whitepaper:
300,45K