🏎️ gemma-webgpu: nollariippuvuus, salamannopea Gemma 1B, joka pyörii kokonaan selaimessasi. Täysi vibe koodattu puhelimestani. 🔥 136,8 tok/s M4 Macilla (3,3 kertaa nopeampi kuin transformers.js) 📱 101 tok/s iPhone 17:llä (270M), 34 tok/s (1B) Mitä rakensimme alusta alkaen: • 18 käsin kirjoitettua WGSL-laskentashaderia, joissa on fused operaatiot (fusedNormAdd tallentaa 36 GPU-lähetystä per eteenpäin suuntautuva lähetys) • Q8_0 dekvantisointi suoraan GPU:lla — laadukkaampi kuin Q4:ssä JA nopeampi • Range request -suoratoisto kuormittaa kerros kerrokselta (~44MB lohkoja), lataa ne GPU:lle, vapauttaa JS-muistin välittömästi. Huippupiste: ~50MB jopa 1GB mallille • Juuri tuo suoratoistotemppu saa 1B:n toimimaan iPhonella. se ei koskaan pidä koko mallia RAM-muistissa 12KB gzip. Ei yhtään riippuvuutta. NPM asenna gemma-webgpu