So unglaublich. @nsthorat ist einer der besten Ingenieure, die ich kenne, und es ist unglaublich, was talentierte Menschen mit Agenten, die in ihrem Namen arbeiten, erreichen können. Wir werden bald so viel mehr coole Dinge in der Welt haben.
🏎️ gemma-webgpu: eine null-Abhängigkeit, blitzschnelle Gemma 1B, die vollständig in deinem Browser läuft. Voller Vibe, codiert von meinem Handy.
🔥 136,8 tok/s auf M4 Mac (3,3x schneller als transformers.js)
📱 101 tok/s auf iPhone 17 (270M), 34 tok/s (1B)
Was wir von Grund auf gebaut haben:
• 18 handgeschriebene WGSL-Compute-Shader mit fusionierten Operationen (fusedNormAdd spart 36 GPU-Dispatches pro Vorwärtsdurchlauf)
• Q8_0-Dekodierung direkt auf der GPU — höhere Qualität als q4 UND schneller
• Bereichsanfragen-Streaming lädt Gewichte schichtweise (~44MB-Chunks), lädt auf die GPU hoch, gibt den JS-Speicher sofort frei. Spitzenheap: ~50MB selbst für das 1GB-Modell
• Dieser Streaming-Trick ist es, der 1B auf dem iPhone zum Laufen bringt. Es hält niemals das gesamte Modell im RAM
12KB gzipped. Null Abhängigkeiten. npm install gemma-webgpu
Es ist einfach: Anthropic hat wie jedes Unternehmen das Recht zu entscheiden, was sie herstellen oder nicht. Die Regierung hat ebenfalls das Recht, mit ihnen zusammenzuarbeiten oder nicht. Wo es problematisch wird, ist, wenn die Regierung sie bedroht, weil sie etwas nicht herstellen, und wo es verrückt wird, ist, wenn die Regierung dies tatsächlich umsetzt.
Stell dir vor, die Regierung würde versuchen, Apple zu zwingen, NSA-Hintertüren in all ihre Geräte einzufügen, indem sie droht, es illegal zu machen, dass jemand, der Geschäfte mit der Regierung macht, Macs verwendet.
Stell dir vor, Apple würde Computer oder iPads an das DOD verkaufen und versuchen, dem Pentagon zu sagen, welche Missionen auf ihren Computern geplant werden könnten.