Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Que um * segundo * papel caiu com toneladas de segredos do volante RL e raciocínio * multimodal * no estilo o1 não está no meu cartão de bingo hoje. Os artigos de Kimi (outra startup) e DeepSeek convergiram notavelmente em descobertas semelhantes:
> Não há necessidade de pesquisa de árvore complexa como o MCTS. Apenas linearize o traço de pensamento e faça a boa e velha previsão autorregressiva;
> Não há necessidade de funções de valor que exijam outra cópia cara do modelo;
> Não há necessidade de modelagem de recompensa densa. Confie o máximo possível na verdade do terreno, no resultado final.
Diferenças:
> DeepSeek faz a abordagem AlphaZero - puramente bootstrap através de RL sem entrada humana, ou seja, "inicialização a frio". Kimi faz a abordagem AlphaGo-Master: SFT leve para aquecer por meio de rastreamentos CoT projetados por prompt.
> pesos do DeepSeek são licença MIT (liderança de pensamento!); Kimi ainda não tem um lançamento de modelo.
> Kimi mostra um forte desempenho multimodal (!) em benchmarks como o MathVista, que requer compreensão visual de geometria, testes de QI, etc.
> artigo Kimi tem MUITO mais detalhes sobre o design do sistema: infraestrutura RL, cluster híbrido, sandbox de código, estratégias de paralelismo; e detalhes de aprendizagem: contexto longo, compressão CoT, currículo, estratégia de amostragem, geração de casos de teste, etc.
Leituras otimistas em um feriado!

Link do whitepaper:
300,45K
Melhores
Classificação
Favoritos