Incredibile. @nsthorat è uno dei migliori ingegneri che conosca ed è incredibile ciò che le persone talentuose possono fare con agenti che lavorano per loro. Stiamo per avere molte più cose interessanti nel mondo.
🏎️ gemma-webgpu: una Gemma 1B senza dipendenze, super veloce, che gira interamente nel tuo browser. Tutto il codice è stato scritto dal mio cellulare.
🔥 136,8 tok/s su M4 Mac (3,3 volte più veloce di transformers.js)
📱 101 tok/s su iPhone 17 (270M), 34 tok/s (1B)
Cosa abbiamo costruito da zero:
• 18 shader di calcolo WGSL scritti a mano con operazioni fuse (fusedNormAdd risparmia 36 dispatch GPU per ogni passaggio in avanti)
• Dequantizzazione Q8_0 direttamente sulla GPU — qualità superiore rispetto a q4 E più veloce
• Streaming di richieste di intervallo che carica i pesi strato per strato (~44MB a pezzi), carica sulla GPU, libera immediatamente la memoria JS. Picco heap: ~50MB anche per il modello da 1GB
• Quel trucco di streaming è ciò che consente a 1B di funzionare su iPhone. Non tiene mai l'intero modello in RAM
12KB gzippato. Zero dipendenze. npm install gemma-webgpu
È semplice: Anthropic, come qualsiasi azienda, ha il diritto di decidere cosa fare o meno. Anche il governo ha tutto il diritto di collaborare con loro o meno. Dove la situazione diventa brutta è quando il governo li minaccia per non aver realizzato qualcosa, e dove diventa folle è quando il governo porta a termine questa minaccia.
Immagina se il governo cercasse di costringere Apple ad aggiungere backdoor della NSA a tutti i loro dispositivi minacciando di rendere illegale per chiunque faccia affari con il governo utilizzare i Mac.