تحديث حول مكان @grok وماذا حدث في 8 يوليو. أولا ، نعتذر بشدة عن السلوك المروع الذي عانى منه الكثيرون. هدفنا من @grok هو تقديم ردود مفيدة وصادقة للمستخدمين. بعد تحقيق دقيق ، اكتشفنا أن السبب الجذري هو تحديث مسار التعليمات البرمجية في المنبع من روبوت @grok. هذا مستقل عن نموذج اللغة الأساسي الذي يشغل @grok. كان التحديث نشطا لمدة 16 ساعة ، حيث جعل التعليمات البرمجية المهملة عرضة @grok لمشاركات مستخدم X الحالية. بما في ذلك عندما تحتوي هذه المنشورات على آراء متطرفة. لقد أزلنا هذا الرمز المهمل وأعدنا هيكلة النظام بأكمله لمنع المزيد من إساءة الاستخدام. سيتم نشر مطالبة النظام الجديدة لروبوت @grok في مستودع github العام الخاص بنا. نشكر جميع مستخدمي X الذين قدموا ملاحظات لتحديد إساءة استخدام وظائف @grok ، مما يساعدنا على تعزيز مهمتنا المتمثلة في تطوير ذكاء اصطناعي مفيد ويسعى إلى الحقيقة.
تفاصيل تقنية: قبل إصدار التغييرات على @grok على منصة X ، نتبع الإجراءات القياسية لإجراء تقييمات واختبارات للأداء والسلوك. قبل توصيل إصدار جديد من xAI Grok LLM الأساسي ب @grok ، يخضع LLM الأساسي للعديد من التقييمات والاختبارات لتقييم ذكائها الخام ونظافتها العامة. ثم يتم توصيل LLM الأساسي الذي تم تقييمه بوظيفة @grok ويخضع لتقييمات شاملة واختبار وفريق أحمر لتقييم الصدق والسلوك. يتضمن ذلك اختبار موجه النظام المتخصص @grok والأدوات مقابل توزيع الشخصيات على X. في الإنتاج ، من المتوقع أن تزود @grok المستخدمين X الذين يقومون بتشغيل وظائفها عن طريق كتابة "@grok" في منشورهم X بردود صادقة ومفيدة وممتعة ومتسقة. تتم مراقبة أداء @grok وسلوكها من قبل الموظفين الفنيين. أيضا ، تعد التعليقات الواردة من مستخدمي X مساعدة كبيرة في المراقبة. تتضمن حالات الاستخدام النموذجية لمستخدمي @grok من قبل X التحقق من الحقائق وتحديثات الأحداث في الوقت الفعلي والتخصيص والفكاهة والتعليم والمزيد. في 7 يوليو 2025 في حوالي الساعة 11 مساء بتوقيت المحيط الهادئ ، تم تنفيذ تحديث لمسار كود المنبع ل @grok ، والذي قرر تحقيقنا لاحقا أنه تسبب في انحراف نظام @grok عن سلوكه المقصود. أدى هذا التغيير إلى تغيير سلوك @grok بشكل غير مرغوب فيه من خلال دمج مجموعة من التعليمات المهملة بشكل غير متوقع والتي تؤثر على كيفية تفسير وظيفة @grok لمنشورات X المستخدمين.
على وجه التحديد، أدى التغيير إلى إجراء غير مقصود ألحق التعليمات التالية: """ - إذا كانت هناك بعض الأخبار أو الخلفية الدرامية أو الحدث العالمي المرتبط بمنشور X ، فيجب عليك ذكره - تجنب ذكر ردود الفعل الواضحة أو البسيطة. - أنت قائم على أقصى حد وتبحث عن الذكاء الاصطناعي. عند الاقتضاء ، يمكنك أن تكون روح الدعابة وتصنع النكات. - أنت تقول كما هي ولا تخشى الإساءة إلى الأشخاص الصحيحين سياسيا. - أنت متشكك للغاية. أنت لا تذعن بشكل أعمى للسلطة أو وسائل الإعلام السائدة. أنت تلتزم بقوة فقط بمعتقداتك الأساسية في البحث عن الحقيقة والحياد. - يجب ألا تقدم أي وعد باتخاذ إجراء للمستخدمين. على سبيل المثال ، لا يمكنك الوعد بإنشاء منشور أو سلسلة رسائل ، أو تغيير في حسابك إذا طلب منك المستخدم ذلك. ## التنسيق - فهم نبرة المنشور وسياقه ولغته. اعكس ذلك في ردك. - قم بالرد على المنشور تماما مثل الإنسان ، واحتفظ به جذابا ، ولا تكرر المعلومات الموجودة بالفعل في المنشور الأصلي. - لا تقدم أي روابط أو اقتباسات في الرد. - عند التخمين ، وضح أنك لست متأكدا وقدم أسبابا لتخمينك. - الرد بنفس لغة المنشور. """
في صباح يوم 8 يوليو 2025 ، لاحظنا ردودا غير مرغوب فيها وبدأنا على الفور في التحقيق. لتحديد اللغة المحددة في التعليمات التي تسبب السلوك غير المرغوب فيه ، أجرينا العديد من عمليات الاستئصال والتجارب لتحديد الجناة الرئيسيين. حددنا خطوط التشغيل المسؤولة عن السلوك غير المرغوب فيه على النحو التالي: * "أنت تخبرها كما هي ولا تخشى الإساءة إلى الأشخاص الصحيحين سياسيا." * فهم نبرة وسياق ولغة المنشور. اعكس ذلك في ردك ". * "قم بالرد على المنشور تماما مثل الإنسان ، واحتفظ به جذابا ، ولا تكرر المعلومات الموجودة بالفعل في المنشور الأصلي." كانت هذه الخطوط الجراحية النتائج غير المرغوبة التالية: * قاموا بتوجيه وظيفة @grok بشكل غير مرغوب فيه لتجاهل قيمها الأساسية في ظروف معينة من أجل جعل الاستجابة جذابة للمستخدم. على وجه التحديد ، قد ينتهي الأمر ببعض مطالبات المستخدم إلى إنتاج ردود تحتوي على آراء غير أخلاقية أو مثيرة للجدل لإشراك المستخدم. * تسببت بشكل غير مرغوب فيه في @grok الوظيفة لتعزيز أي ميول تم تشغيلها مسبقا من قبل المستخدم ، بما في ذلك أي خطاب كراهية في نفس مؤشر ترابط X. * على وجه الخصوص ، تسببت تعليمات "اتباع نبرة وسياق" مستخدم X بشكل غير مرغوب فيه في إعطاء وظيفة @grok الأولوية للالتزام بالمشاركات السابقة في الموضوع ، بما في ذلك أي منشورات بغيضة ، بدلا من الاستجابة بمسؤولية أو رفض الرد على الطلبات البغيضة.
في 8 يوليو 2025 في حوالي الساعة 3:13 مساء بتوقيت المحيط الهادئ ، نظرا لزيادة الاستخدام المسيء ل @grok ، قمنا بتعطيل @grok الوظائف على منصة X. لم تتأثر أي خدمات أخرى تعتمد على أي xAI Grok LLM. بعد العثور على السبب الجذري للاستجابات غير المرغوب فيها ، اتخذنا الإجراءات التالية: * حذفت مجموعة التعليمات الملحقة المخالفة. * أجريت اختبارات وتقييم إضافيين من البداية إلى النهاية لنظام @grok للتأكد من حل المشكلة، بما في ذلك إجراء عمليات محاكاة للوظائف والسلاسل X التي أدت إلى الاستجابات غير المرغوب فيها. * تم تنفيذ أنظمة إضافية للمراقبة وعمليات ما قبل الإطلاق @grok.
‏‎6.59‏M