Tak neuvěřitelné. @nsthorat je jeden z nejlepších inženýrů, které znám, a je neuvěřitelné, co dokážou talentovaní lidé, když agenti pracují za ně. Brzy budeme mít na světě mnohem víc skvělých věcí
🏎️ gemma-webgpu: bezzávislostní, bleskově rychlá Gemma 1B běžící zcela ve vašem prohlížeči. Plný vibrátor zakódovaný z mého mobilu.
🔥 136,8 tok/s na M4 Macu (3,3x rychlejší než transformers.js)
📱 101 tok/s na iPhonu 17 (270M), 34 tok/s (1B)
Co jsme postavili od základu:
• 18 ručně psaných WGSL výpočetních shaderů s fúzními operacemi (fusedNormAdd ušetří 36 GPU výstupů na jeden forward pass)
• Q8_0 dekvantizace přímo na GPU — vyšší kvalita než q4 A rychlejší
• Range request loading loading váhuje vrstvu po vrstvě (~44MB chunků), nahrává se na GPU, okamžitě uvolňuje JS paměť. Maximální halda: ~50MB i pro model s 1GB
• Tento trik se streamováním je důvod, proč 1B běží na iPhonu. nikdy neobsahuje celý model v RAM
12KB se zkrátilo. Žádné závislosti. npm install gemma-webgpu
Je to jednoduché: Anthropic, stejně jako každá firma, má právo rozhodnout, co bude vyrábět a co ne. Vláda má také plné právo s nimi spolupracovat, nebo ne. Problém je v tom, že vláda jim vyhrožuje, že něco nevyrobili, a kde to šíleně je, když vláda to dodrží
Představte si, že by vláda zkusila donutit Apple přidat zadní vrátka NSA na všechna svá zařízení tím, že by hrozila, že bude zakázáno používat Macy komukoli, kdo s vládou obchoduje.