Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Que un *segundo* documento haya salido con toneladas de secretos del ciclo de retroalimentación de RL y razonamiento *multimodal* al estilo o1 no estaba en mi tarjeta de bingo hoy. Los documentos de Kimi (otra startup) y DeepSeek convergieron notablemente en hallazgos similares:
> No es necesario un complejo árbol de búsqueda como MCTS. Simplemente linealiza la traza de pensamiento y haz una buena predicción autorregresiva;
> No es necesario funciones de valor que requieran otra costosa copia del modelo;
> No es necesario modelar recompensas densas. Confía tanto como sea posible en la verdad fundamental, el resultado final.
Diferencias:
> DeepSeek utiliza el enfoque de AlphaZero: se inicia puramente a través de RL sin entrada humana, es decir, "inicio en frío". Kimi utiliza el enfoque de AlphaGo-Master: un ligero SFT para calentar a través de trazas de CoT diseñadas por prompts.
> Los pesos de DeepSeek tienen licencia MIT (¡liderazgo de pensamiento!); Kimi aún no tiene un lanzamiento de modelo.
> Kimi muestra un fuerte rendimiento multimodal (!) en benchmarks como MathVista, que requiere comprensión visual de geometría, pruebas de CI, etc.
> El documento de Kimi tiene MUCHOS más detalles sobre el diseño del sistema: infraestructura de RL, clúster híbrido, sandbox de código, estrategias de paralelismo; y detalles de aprendizaje: contexto largo, compresión de CoT, currículo, estrategia de muestreo, generación de casos de prueba, etc.
¡Lecturas optimistas en un día festivo!

Enlace del whitepaper:
300,49K
Parte superior
Clasificación
Favoritos