Que un *segundo* papel caído con toneladas de secretos del volante de RL y razonamientos *multimodales* al estilo o1 no está en mi cartón de bingo hoy. Los artículos de Kimi (otra startup) y DeepSeek convergieron notablemente en hallazgos similares: > No es necesario realizar una búsqueda compleja de árboles como MCTS. Simplemente linealice el rastro del pensamiento y haga la buena predicción autorregresiva; > No hay necesidad de funciones de valor que requieran otra copia costosa del modelo; > No es necesario un modelado denso de recompensas. Confíe tanto como sea posible en la verdad sobre el terreno, el resultado final. Diferencias: > DeepSeek hace el enfoque de AlphaZero: puramente arranque a través de RL sin intervención humana, es decir, "arranque en frío". Kimi hace el enfoque AlphaGo-Master: SFT ligero para calentar a través de trazas de CoT diseñadas rápidamente. > pesos de DeepSeek son licencia MIT (¡liderazgo de pensamiento!); Kimi aún no tiene un lanzamiento de modelo. > Kimi muestra un fuerte rendimiento multimodal (!) en puntos de referencia como MathVista, que requiere comprensión visual de la geometría, pruebas de coeficiente intelectual, etc. > documento de Kimi tiene MUCHOS más detalles sobre el diseño del sistema: infraestructura RL, clúster híbrido, sandbox de código, estrategias de paralelismo; y detalles de aprendizaje: contexto largo, compresión de CoT, currículo, estrategia de muestreo, generación de casos de prueba, etc. ¡Lecturas optimistas en un día festivo!
Enlace al documento técnico:
300.44K