Che un *secondo* documento sia stato pubblicato con tonnellate di segreti sul volano RL e ragionamento *multimodale* in stile o1 non era nei miei piani per oggi. I documenti di Kimi (un'altra startup) e DeepSeek hanno sorprendentemente convergito su risultati simili: > Non è necessario un complesso ricerca ad albero come MCTS. Basta linearizzare la traccia di pensiero e fare una buona vecchia previsione autoregressiva; > Non è necessario un valore delle funzioni che richiedono un'altra costosa copia del modello; > Non è necessario un modello di ricompensa denso. Fare affidamento il più possibile sulla verità di base, sul risultato finale. Differenze: > DeepSeek adotta l'approccio AlphaZero - bootstrap puramente attraverso RL senza input umano, cioè "cold start". Kimi adotta l'approccio AlphaGo-Master: leggera SFT per riscaldarsi attraverso tracce CoT progettate tramite prompt. > I pesi di DeepSeek sono sotto licenza MIT (leadership di pensiero!); Kimi non ha ancora rilasciato un modello. > Kimi mostra forti prestazioni multimodali (!) su benchmark come MathVista, che richiede comprensione visiva della geometria, test di QI, ecc. > Il documento di Kimi ha MOLTI più dettagli sul design del sistema: infrastruttura RL, cluster ibrido, sandbox di codice, strategie di parallelismo; e dettagli di apprendimento: lungo contesto, compressione CoT, curriculum, strategia di campionamento, generazione di casi di test, ecc. Letture ottimiste in un giorno festivo!
Link al whitepaper:
300,46K