To niesamowite. @nsthorat jest jednym z najlepszych inżynierów, jakich znam, i to niesamowite, co utalentowani ludzie mogą zrobić z agentami pracującymi w ich imieniu. Wkrótce będziemy mieli znacznie więcej fajnych rzeczy na świecie.
🏎️ gemma-webgpu: zero-zależności, błyskawicznie szybki Gemma 1B działający całkowicie w Twojej przeglądarce. Cały vibe zakodowany z mojego telefonu komórkowego.
🔥 136,8 tok/s na M4 Mac (3,3x szybciej niż transformers.js)
📱 101 tok/s na iPhone 17 (270M), 34 tok/s (1B)
Co zbudowaliśmy od podstaw:
• 18 ręcznie napisanych shaderów obliczeniowych WGSL z połączonymi operacjami (fusedNormAdd oszczędza 36 wywołań GPU na każdy krok do przodu)
• Dequantyzacja Q8_0 bezpośrednio na GPU — wyższa jakość niż q4 I szybsza
• Strumieniowe ładowanie wag w zakresie warstwa po warstwie (~44MB kawałki), przesyłanie do GPU, natychmiastowe zwalnianie pamięci JS. Szczytowa pamięć: ~50MB nawet dla modelu 1GB
• Ten trick strumieniowy to to, co pozwala 1B działać na iPhone. nigdy nie trzyma pełnego modelu w RAM
12KB skompresowane gzipem. Zero zależności. npm install gemma-webgpu
To proste: Anthropic, jak każda firma, ma prawo decydować, co produkować, a czego nie. Rząd również ma pełne prawo współpracować z nimi lub nie. Gdzie to się robi złe, to rząd grożący im za to, że czegoś nie stworzą, a gdzie to staje się szalone, to rząd realizujący te groźby.
Wyobraź sobie, że rząd próbowałby zmusić Apple do dodania tylnej furtki NSA do wszystkich swoich urządzeń, grożąc, że uczyni to nielegalnym dla każdego, kto prowadzi interesy z rządem, aby używał maców.