Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Che un *secondo* documento sia stato pubblicato con tonnellate di segreti sul volano RL e ragionamento *multimodale* in stile o1 non era nei miei piani per oggi. I documenti di Kimi (un'altra startup) e DeepSeek hanno sorprendentemente convergito su risultati simili:
> Non è necessario un complesso ricerca ad albero come MCTS. Basta linearizzare la traccia di pensiero e fare una buona vecchia previsione autoregressiva;
> Non è necessario un valore delle funzioni che richiedono un'altra costosa copia del modello;
> Non è necessario un modello di ricompensa denso. Fare affidamento il più possibile sulla verità di base, sul risultato finale.
Differenze:
> DeepSeek adotta l'approccio AlphaZero - bootstrap puramente attraverso RL senza input umano, cioè "cold start". Kimi adotta l'approccio AlphaGo-Master: leggera SFT per riscaldarsi attraverso tracce CoT progettate tramite prompt.
> I pesi di DeepSeek sono sotto licenza MIT (leadership di pensiero!); Kimi non ha ancora rilasciato un modello.
> Kimi mostra forti prestazioni multimodali (!) su benchmark come MathVista, che richiede comprensione visiva della geometria, test di QI, ecc.
> Il documento di Kimi ha MOLTI più dettagli sul design del sistema: infrastruttura RL, cluster ibrido, sandbox di codice, strategie di parallelismo; e dettagli di apprendimento: lungo contesto, compressione CoT, curriculum, strategia di campionamento, generazione di casi di test, ecc.
Letture ottimiste in un giorno festivo!

Link al whitepaper:
300,46K
Principali
Ranking
Preferiti