Incrível. @nsthorat é um dos melhores engenheiros que conheço e é incrível o que pessoas talentosas podem fazer com agentes trabalhando em seu nome. Estamos prestes a ter muito mais coisas legais no mundo.
🏎️ gemma-webgpu: uma Gemma 1B sem dependências, incrivelmente rápida, a correr inteiramente no seu navegador. Todo o vibe codificado a partir do meu telemóvel.
🔥 136,8 tok/s no M4 Mac (3,3x mais rápido que transformers.js)
📱 101 tok/s no iPhone 17 (270M), 34 tok/s (1B)
O que construímos do zero:
• 18 shaders de computação WGSL escritos à mão com operações fundidas (fusedNormAdd economiza 36 despachos de GPU por passagem para a frente)
• Dequantização Q8_0 diretamente na GPU — qualidade superior à q4 E mais rápida
• Carregamentos de streaming de pedidos de intervalo de pesos camada por camada (~44MB por pedaço), faz upload para a GPU, liberta a memória JS imediatamente. Pico de heap: ~50MB mesmo para o modelo de 1GB
• Esse truque de streaming é o que faz o 1B funcionar no iPhone. nunca mantém o modelo completo na RAM
12KB comprimido. Zero dependências. npm install gemma-webgpu
É simples: a Anthropic, como qualquer empresa, tem o direito de decidir o que fazer ou não. O governo também tem todo o direito de trabalhar com eles ou não. Onde isso se torna ruim é o governo ameaçando-os por não fazer algo, e onde isso se torna insano é o governo levando isso a cabo.
Imagine se o governo tentasse forçar a Apple a adicionar portas dos fundos da NSA a todos os seus dispositivos, ameaçando tornar ilegal para qualquer um que fizesse negócios com o governo usar Macs.