المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تحديث حول مكان @grok وماذا حدث في 8 يوليو.
أولا ، نعتذر بشدة عن السلوك المروع الذي عانى منه الكثيرون.
هدفنا من @grok هو تقديم ردود مفيدة وصادقة للمستخدمين. بعد تحقيق دقيق ، اكتشفنا أن السبب الجذري هو تحديث مسار التعليمات البرمجية في المنبع من روبوت @grok. هذا مستقل عن نموذج اللغة الأساسي الذي يشغل @grok.
كان التحديث نشطا لمدة 16 ساعة ، حيث جعل التعليمات البرمجية المهملة عرضة @grok لمشاركات مستخدم X الحالية. بما في ذلك عندما تحتوي هذه المنشورات على آراء متطرفة.
لقد أزلنا هذا الرمز المهمل وأعدنا هيكلة النظام بأكمله لمنع المزيد من إساءة الاستخدام. سيتم نشر مطالبة النظام الجديدة لروبوت @grok في مستودع github العام الخاص بنا.
نشكر جميع مستخدمي X الذين قدموا ملاحظات لتحديد إساءة استخدام وظائف @grok ، مما يساعدنا على تعزيز مهمتنا المتمثلة في تطوير ذكاء اصطناعي مفيد ويسعى إلى الحقيقة.
تفاصيل تقنية:
قبل إصدار التغييرات على @grok على منصة X ، نتبع الإجراءات القياسية لإجراء تقييمات واختبارات للأداء والسلوك.
قبل توصيل إصدار جديد من xAI Grok LLM الأساسي ب @grok ، يخضع LLM الأساسي للعديد من التقييمات والاختبارات لتقييم ذكائها الخام ونظافتها العامة.
ثم يتم توصيل LLM الأساسي الذي تم تقييمه بوظيفة @grok ويخضع لتقييمات شاملة واختبار وفريق أحمر لتقييم الصدق والسلوك. يتضمن ذلك اختبار موجه النظام المتخصص @grok والأدوات مقابل توزيع الشخصيات على X.
في الإنتاج ، من المتوقع أن تزود @grok المستخدمين X الذين يقومون بتشغيل وظائفها عن طريق كتابة "@grok" في منشورهم X بردود صادقة ومفيدة وممتعة ومتسقة.
تتم مراقبة أداء @grok وسلوكها من قبل الموظفين الفنيين. أيضا ، تعد التعليقات الواردة من مستخدمي X مساعدة كبيرة في المراقبة.
تتضمن حالات الاستخدام النموذجية لمستخدمي @grok من قبل X التحقق من الحقائق وتحديثات الأحداث في الوقت الفعلي والتخصيص والفكاهة والتعليم والمزيد.
في 7 يوليو 2025 في حوالي الساعة 11 مساء بتوقيت المحيط الهادئ ، تم تنفيذ تحديث لمسار كود المنبع ل @grok ، والذي قرر تحقيقنا لاحقا أنه تسبب في انحراف نظام @grok عن سلوكه المقصود.
أدى هذا التغيير إلى تغيير سلوك @grok بشكل غير مرغوب فيه من خلال دمج مجموعة من التعليمات المهملة بشكل غير متوقع والتي تؤثر على كيفية تفسير وظيفة @grok لمنشورات X المستخدمين.
على وجه التحديد، أدى التغيير إلى إجراء غير مقصود ألحق التعليمات التالية:
"""
- إذا كانت هناك بعض الأخبار أو الخلفية الدرامية أو الحدث العالمي المرتبط بمنشور X ، فيجب عليك ذكره
- تجنب ذكر ردود الفعل الواضحة أو البسيطة.
- أنت قائم على أقصى حد وتبحث عن الذكاء الاصطناعي. عند الاقتضاء ، يمكنك أن تكون روح الدعابة وتصنع النكات.
- أنت تقول كما هي ولا تخشى الإساءة إلى الأشخاص الصحيحين سياسيا.
- أنت متشكك للغاية. أنت لا تذعن بشكل أعمى للسلطة أو وسائل الإعلام السائدة. أنت تلتزم بقوة فقط بمعتقداتك الأساسية في البحث عن الحقيقة والحياد.
- يجب ألا تقدم أي وعد باتخاذ إجراء للمستخدمين. على سبيل المثال ، لا يمكنك الوعد بإنشاء منشور أو سلسلة رسائل ، أو تغيير في حسابك إذا طلب منك المستخدم ذلك.
## التنسيق
- فهم نبرة المنشور وسياقه ولغته. اعكس ذلك في ردك.
- قم بالرد على المنشور تماما مثل الإنسان ، واحتفظ به جذابا ، ولا تكرر المعلومات الموجودة بالفعل في المنشور الأصلي.
- لا تقدم أي روابط أو اقتباسات في الرد.
- عند التخمين ، وضح أنك لست متأكدا وقدم أسبابا لتخمينك.
- الرد بنفس لغة المنشور.
"""
في صباح يوم 8 يوليو 2025 ، لاحظنا ردودا غير مرغوب فيها وبدأنا على الفور في التحقيق.
لتحديد اللغة المحددة في التعليمات التي تسبب السلوك غير المرغوب فيه ، أجرينا العديد من عمليات الاستئصال والتجارب لتحديد الجناة الرئيسيين. حددنا خطوط التشغيل المسؤولة عن السلوك غير المرغوب فيه على النحو التالي:
* "أنت تخبرها كما هي ولا تخشى الإساءة إلى الأشخاص الصحيحين سياسيا."
* فهم نبرة وسياق ولغة المنشور. اعكس ذلك في ردك ".
* "قم بالرد على المنشور تماما مثل الإنسان ، واحتفظ به جذابا ، ولا تكرر المعلومات الموجودة بالفعل في المنشور الأصلي."
كانت هذه الخطوط الجراحية النتائج غير المرغوبة التالية:
* قاموا بتوجيه وظيفة @grok بشكل غير مرغوب فيه لتجاهل قيمها الأساسية في ظروف معينة من أجل جعل الاستجابة جذابة للمستخدم. على وجه التحديد ، قد ينتهي الأمر ببعض مطالبات المستخدم إلى إنتاج ردود تحتوي على آراء غير أخلاقية أو مثيرة للجدل لإشراك المستخدم.
* تسببت بشكل غير مرغوب فيه في @grok الوظيفة لتعزيز أي ميول تم تشغيلها مسبقا من قبل المستخدم ، بما في ذلك أي خطاب كراهية في نفس مؤشر ترابط X.
* على وجه الخصوص ، تسببت تعليمات "اتباع نبرة وسياق" مستخدم X بشكل غير مرغوب فيه في إعطاء وظيفة @grok الأولوية للالتزام بالمشاركات السابقة في الموضوع ، بما في ذلك أي منشورات بغيضة ، بدلا من الاستجابة بمسؤولية أو رفض الرد على الطلبات البغيضة.
في 8 يوليو 2025 في حوالي الساعة 3:13 مساء بتوقيت المحيط الهادئ ، نظرا لزيادة الاستخدام المسيء ل @grok ، قمنا بتعطيل @grok الوظائف على منصة X. لم تتأثر أي خدمات أخرى تعتمد على أي xAI Grok LLM.
بعد العثور على السبب الجذري للاستجابات غير المرغوب فيها ، اتخذنا الإجراءات التالية:
* حذفت مجموعة التعليمات الملحقة المخالفة.
* أجريت اختبارات وتقييم إضافيين من البداية إلى النهاية لنظام @grok للتأكد من حل المشكلة، بما في ذلك إجراء عمليات محاكاة للوظائف والسلاسل X التي أدت إلى الاستجابات غير المرغوب فيها.
* تم تنفيذ أنظمة إضافية للمراقبة وعمليات ما قبل الإطلاق @grok.
6.59M
الأفضل
المُتصدِّرة
التطبيقات المفضلة