Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
mas o que é ótimo sobre @PrimeIntellect é a disponibilidade de instâncias spot -- hoje consegui um nó com 8xH200 por apenas $8/hora!
Vou mostrar como configurei rapidamente a inferência moonshotai/Kimi-K2-Instruct usando vllm
1. Depois de obter acesso SSH ao seu pod (espere cerca de 10 minutos), crie seu projeto e instale as bibliotecas necessárias:
apt update && apt install htop tmux
uv init
uv venv -p 3.12
source .venv/bin/activate
export UV_TORCH_BACKEND=auto
export HF_HUB_ENABLE_HF_TRANSFER="1"
uv pip install vllm blobfile datasets huggingface_hub hf_transfer
Depois disso, abra uma sessão tmux
2. Para começar a hospedar vllm, você simplesmente usa vllm serve:
vllm serve moonshotai/Kimi-K2-Instruct --trust-remote-code --dtype bfloat16 --max-model-len 12000 --max-num-seqs 8 --quantization="fp8" --tensor_parallel_size 8
O download do checkpoint real é difícil, pois mesmo com hf_transfer levará 1 hora (alguém conhece uma solução mais rápida ou como montar o checkpoint baixado de alguma forma?)
3. Então, em um novo painel tmux, instale o túnel rápido do cloudflare e inicie-o
install cloudflared
cloudflared tunnel --url
É basicamente isso! Um servidor compatível com OpenAI estará disponível na URL fornecida pelo Cloudflare, no meu caso é e eu apenas uso meu simples wrapper sobre o cliente openai para gerar muitos dados sintéticos através dele.


38,69K
Top
Classificação
Favoritos