مذهل جدا. @nsthorat من أفضل المهندسين الذين أعرفهم، ومن المدهش ما يمكن للموهوبين فعله مع وكلاء يعملون نيابة عنهم. نحن على وشك أن نحصل على المزيد من الأشياء الرائعة في العالم
🏎️ gemma-webgpu: جهاز Gemma 1B السريع وغير المعتمد يعمل بالكامل في متصفحك. تم ترميز كامل من هاتفي المحمول.
🔥 136.8 توك/ثانية على ماك M4 (أسرع ب 3.3 مرة من transformers.js)
📱 101 توك/ث على آيفون 17 (270 ملجا)، 34 توك/ث (1B)
ما بنيناه من الصفر:
• 18 شيدر حساب WGSL مكتوب يدويا مع عمليات مدمج (fusedNormAdd يوفر 36 إرسال GPU لكل تمريرة أمامية)
• Q8_0 إزالة الكمية مباشرة على وحدة معالجة الرسومات — بجودة أعلى من Q4 وأسرع
• تحميل طلب المدى يوزن طبقة بطبقة (~44 ميجابايت)، ورفعه إلى وحدة معالجة الرسومات، وتحرير ذاكرة جافاسكريبت فورا. الحد الأعلى للحجم: ~50 ميجابايت حتى لموديل 1GB
• هذه الحيلة التي تجعل 1B يعمل على الآيفون. لا يحمل النموذج الكامل في ذاكرة الوصول العشوائي
12KB مضغوط. لا تبعيات. NPM install gemma-webGPU
الأمر بسيط: لدى Anthropic، مثل أي شركة، الحق في تحديد ما تصنعه أو لا. للحكومة أيضا كل الحق في العمل معهم أو لا. ما يسوء الأمر هو تهديد الحكومة لعدم إنتاجهم شيئا، وحيث يصبح الأمر جنونا هو أن الحكومة تنفذ الأمر
تخيل لو حاولت الحكومة إجبار آبل على إضافة أبواب خلفية لوكالة الأمن القومي لجميع أجهزتها من خلال تهديد جعل استخدام أجهزة ماك غير قانونية لأي شخص يتعامل مع الحكومة.