Que un *segundo* documento haya salido con toneladas de secretos del ciclo de retroalimentación de RL y razonamiento *multimodal* al estilo o1 no estaba en mi tarjeta de bingo hoy. Los documentos de Kimi (otra startup) y DeepSeek convergieron notablemente en hallazgos similares: > No es necesario un complejo árbol de búsqueda como MCTS. Simplemente linealiza la traza de pensamiento y haz una buena predicción autorregresiva; > No es necesario funciones de valor que requieran otra costosa copia del modelo; > No es necesario modelar recompensas densas. Confía tanto como sea posible en la verdad fundamental, el resultado final. Diferencias: > DeepSeek utiliza el enfoque de AlphaZero: se inicia puramente a través de RL sin entrada humana, es decir, "inicio en frío". Kimi utiliza el enfoque de AlphaGo-Master: un ligero SFT para calentar a través de trazas de CoT diseñadas por prompts. > Los pesos de DeepSeek tienen licencia MIT (¡liderazgo de pensamiento!); Kimi aún no tiene un lanzamiento de modelo. > Kimi muestra un fuerte rendimiento multimodal (!) en benchmarks como MathVista, que requiere comprensión visual de geometría, pruebas de CI, etc. > El documento de Kimi tiene MUCHOS más detalles sobre el diseño del sistema: infraestructura de RL, clúster híbrido, sandbox de código, estrategias de paralelismo; y detalles de aprendizaje: contexto largo, compresión de CoT, currículo, estrategia de muestreo, generación de casos de prueba, etc. ¡Lecturas optimistas en un día festivo!
Enlace del whitepaper:
300,49K