🏎️ gemma-webgpu: جهاز Gemma 1B السريع وغير المعتمد يعمل بالكامل في متصفحك. تم ترميز كامل من هاتفي المحمول. 🔥 136.8 توك/ثانية على ماك M4 (أسرع ب 3.3 مرة من transformers.js) 📱 101 توك/ث على آيفون 17 (270 ملجا)، 34 توك/ث (1B) ما بنيناه من الصفر: • 18 شيدر حساب WGSL مكتوب يدويا مع عمليات مدمج (fusedNormAdd يوفر 36 إرسال GPU لكل تمريرة أمامية) • Q8_0 إزالة الكمية مباشرة على وحدة معالجة الرسومات — بجودة أعلى من Q4 وأسرع • تحميل طلب المدى يوزن طبقة بطبقة (~44 ميجابايت)، ورفعه إلى وحدة معالجة الرسومات، وتحرير ذاكرة جافاسكريبت فورا. الحد الأعلى للحجم: ~50 ميجابايت حتى لموديل 1GB • هذه الحيلة التي تجعل 1B يعمل على الآيفون. لا يحمل النموذج الكامل في ذاكرة الوصول العشوائي 12KB مضغوط. لا تبعيات. NPM install gemma-webGPU