🏎️ gemma-webgpu: un Gemma 1B fără dependență, extrem de rapid, care rulează complet în browserul tău. Vibe complet codificat de pe telefonul meu mobil. 🔥 136,8 tok/s pe Mac M4 (de 3,3 ori mai rapid decât transformers.js) 📱 101 tok/s pe iPhone 17 (270M), 34 tok/s (1B) Ce am construit de la zero: • 18 shadere de calcul WGSL scrise de mână cu operațiuni fuzionate (fusedNormAdd salvează 36 de dispeceraturi GPU la fiecare trecere înainte) • Q8_0 decuantizare direct pe GPU — calitate mai bună decât Q4 ȘI mai rapidă • Streaming-ul cu cereri de interval încarcă greutățile strat cu strat (~44MB bucăți), se încarcă pe GPU, eliberează imediat memoria JS. Pică maximă: ~50MB chiar și pentru modelul de 1GB • Acest truc de streaming este ceea ce face ca 1B să ruleze pe iPhone. nu ține niciodată modelul complet în RAM 12KB s-au blocat. Zero dependențe. NPM instalează gemma-webgpu