🏎️ gemma-webgpu: un Gemma 1B sin dependencias, increíblemente rápido, que se ejecuta completamente en tu navegador. Todo el ambiente codificado desde mi teléfono móvil. 🔥 136.8 tok/s en M4 Mac (3.3x más rápido que transformers.js) 📱 101 tok/s en iPhone 17 (270M), 34 tok/s (1B) Lo que construimos desde cero: • 18 shaders de cómputo WGSL escritos a mano con operaciones fusionadas (fusedNormAdd ahorra 36 despachos de GPU por pasada hacia adelante) • Dequantización Q8_0 directamente en GPU — mayor calidad que q4 Y más rápido • Carga de pesos por streaming de solicitudes de rango capa por capa (~44MB por fragmento), sube a la GPU, libera memoria JS inmediatamente. Pico de memoria: ~50MB incluso para el modelo de 1GB • Ese truco de streaming es lo que permite que 1B funcione en iPhone. nunca mantiene el modelo completo en RAM 12KB comprimido. Sin dependencias. npm install gemma-webgpu