DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Atualização de desenvolvimento de Moltghost Pesquisei o Kimi K2 como uma opção de modelo local. É um modelo MoE com 1T parâmetros — mesmo quantizado, precisa de 500GB+ de disco e 200GB+ de VRAM. Nossos pods de GPU única chegam ao máximo de 45GB, então não é viável no hardware atual. Por enquanto, rodamos modelos que cabem em GPUs únicas como Phi4-Mini e Qwen3 8B, com modelos de raciocínio como DeepSeek-R1 vindo em seguida. O suporte a cluster multi-GPU está no roteiro. No lado do desdobramento, o bootstrap passou de 75s para 19s. Incorporamos pesos do OpenClaw e do LLM na imagem do Docker, removemos o loop de puxada e reconstrução do git, e paralelizamos a inicialização. Testado em 3 tipos de GPUs: L4 → bootstrap de 18 polegadas, ~2:47 no total A5000 → 19s bootstrap, ~6:18 no total A40 → 18s bootstrap, ~5:08 no total Clique para ver o agente ao vivo em menos de 3 minutos no L4. O gargalo restante é container init — o RunPod puxando e extraindo nossa imagem Docker de 1,3GB para o nó da GPU antes mesmo do nosso código rodar. Isso leva de 2 a 5 minutos, dependendo de qual nó você cair e se a imagem já está armazenada em cache. O próximo passo é registrar os templates do RunPod para pré-cachear imagens entre nós, visando reduzir o total de implantação para menos de 1 minuto. Tudo isso ainda está rodando no desenvolvimento local. A seleção multimodelo ainda não está em produção — ainda precisamos reconstruir a imagem do Qwen3 8B para corresponder ao sistema atualizado antes de torná-la pública.

Melhores

Classificação

Favoritos