mas o que é ótimo sobre @PrimeIntellect é a disponibilidade de instâncias spot -- hoje consegui um nó com 8xH200 por apenas $8/hora! Vou mostrar como configurei rapidamente a inferência moonshotai/Kimi-K2-Instruct usando vllm 1. Depois de obter acesso SSH ao seu pod (espere cerca de 10 minutos), crie seu projeto e instale as bibliotecas necessárias: apt update && apt install htop tmux uv init uv venv -p 3.12 source .venv/bin/activate export UV_TORCH_BACKEND=auto export HF_HUB_ENABLE_HF_TRANSFER="1" uv pip install vllm blobfile datasets huggingface_hub hf_transfer Depois disso, abra uma sessão tmux 2. Para começar a hospedar vllm, você simplesmente usa vllm serve: vllm serve moonshotai/Kimi-K2-Instruct --trust-remote-code --dtype bfloat16 --max-model-len 12000 --max-num-seqs 8 --quantization="fp8" --tensor_parallel_size 8 O download do checkpoint real é difícil, pois mesmo com hf_transfer levará 1 hora (alguém conhece uma solução mais rápida ou como montar o checkpoint baixado de alguma forma?) 3. Então, em um novo painel tmux, instale o túnel rápido do cloudflare e inicie-o install cloudflared cloudflared tunnel --url É basicamente isso! Um servidor compatível com OpenAI estará disponível na URL fornecida pelo Cloudflare, no meu caso é e eu apenas uso meu simples wrapper sobre o cliente openai para gerar muitos dados sintéticos através dele.
38,69K