Actualización del desarrollador de Moltghost Se ha investigado Kimi K2 como una opción de modelo local. Es un modelo MoE de 1T de parámetros; incluso cuantificado, necesita más de 500GB de disco y más de 200GB de VRAM. Nuestros pods de GPU únicos alcanzan un máximo de 45GB, por lo que no es factible con el hardware actual. Por ahora, ejecutamos modelos que se ajustan a GPUs individuales como Phi4-Mini y Qwen3 8B, con modelos de razonamiento como DeepSeek-R1 que vendrán a continuación. El soporte para clústeres de múltiples GPUs está en la hoja de ruta. En el lado del despliegue, el arranque pasó de 75s a 19s. Hemos integrado los pesos de OpenClaw y LLM en la imagen de Docker, eliminamos el bucle de git pull y reconstrucción, y paralelizamos el inicio. Probado en 3 tipos de GPU: L4 → 18s de arranque, ~2:47 en total A5000 → 19s de arranque, ~6:18 en total A40 → 18s de arranque, ~5:08 en total Haz clic para el agente en vivo en menos de 3 minutos en L4. El cuello de botella restante es la inicialización del contenedor: RunPod descargando y extrayendo nuestra imagen de Docker de 1.3GB en el nodo de GPU antes de que nuestro código se ejecute. Esto toma de 2 a 5 minutos dependiendo de en qué nodo aterrices y si ya tiene la imagen en caché. El siguiente paso es registrar plantillas de RunPod para pre-caché de imágenes en los nodos, con el objetivo de reducir el despliegue total a menos de 1 minuto. Todo esto sigue funcionando en el desarrollo local. La selección de múltiples modelos aún no está activa en producción; todavía necesitamos reconstruir la imagen de Qwen3 8B para que coincida con el sistema actualizado antes de hacerla pública.