Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Actualización de desarrollo de Moltghost He mirado el Kimi K2 como modelo local. Es un modelo MoE de 1T parámetros — incluso cuantizado, necesita disco de 500GB+ y 200GB+ de VRAM. Nuestros pods de GPU única alcanzan un máximo de 45GB, así que no es factible con el hardware actual. Por ahora, usamos modelos que caben en GPUs individuales como Phi4-Mini y Qwen3 8B, con modelos de razonamiento como DeepSeek-R1 a continuación. El soporte para clústeres multiGPU está en la hoja de ruta. En el lado del despliegue, el bootstrap pasó de 75s a 19s. Integramos los pesos de OpenClaw y LLM en la imagen de Docker, eliminamos el bucle de tirada y reconstrucción de git, y paralelizamos el arranque. Probado en 3 tipos de GPU: L4 → bootstrap de 18s, ~2:47 en total A5000 → 19s bootstrap, ~6:18 en total A40 → 18s bootstrap, ~5:08 en total Haz clic para ver agente en vivo en menos de 3 minutos en L4. El cuello de botella restante es contenedor init — RunPod extrayendo y extrayendo nuestra imagen Docker de 1,3GB en el nodo de la GPU antes incluso de que nuestro código se ejecute. Esto tarda entre 2 y 5 minutos dependiendo de en qué nodo te encuentres y de si ya tiene la imagen almacenada en caché. El siguiente paso es registrar plantillas de RunPod para pre-almacenar imágenes en caché entre los nodos, con el objetivo de reducir el despliegue total a menos de 1 minuto. Todo esto sigue funcionando en desarrollo local. La selección multimodelo aún no está en producción — todavía necesitamos reconstruir la imagen del Qwen3 8B para que coincida con el sistema actualizado antes de publicarla.

Populares

Ranking

Favoritas