🏎️ gemma-webgpu : un Gemma 1B sans dépendances, ultra rapide, fonctionnant entièrement dans votre navigateur. Ambiance complète codée depuis mon téléphone portable. 🔥 136,8 tok/s sur M4 Mac (3,3x plus rapide que transformers.js) 📱 101 tok/s sur iPhone 17 (270M), 34 tok/s (1B) Ce que nous avons construit de zéro : • 18 shaders de calcul WGSL écrits à la main avec des opérations fusionnées (fusedNormAdd économise 36 dispatches GPU par passage avant) • Déquantification Q8_0 directement sur GPU — qualité supérieure à q4 ET plus rapide • Chargements de poids par requête de plage en streaming couche par couche (~44 Mo par morceaux), téléversements vers le GPU, libère immédiatement la mémoire JS. Pile maximale : ~50 Mo même pour le modèle de 1 Go • Ce truc de streaming est ce qui permet à 1B de fonctionner sur iPhone. il ne garde jamais le modèle complet en RAM 12 Ko gzippé. Aucune dépendance. npm install gemma-webgpu