ستنمو الشركات التي تبني معايير أفضل بشكل أسرع من الشركات التي تبني نماذج أفضل يمكن ل الذكاء الاصطناعي بالفعل حل مسابقات الشطرنج والامتحانات والترميز ، ولكن لا يزال غير قادر على حجز عشاء بشكل موثوق لقد انتقل عنق الزجاجة من الذكاء إلى التقييم
ℏεsam
ℏεsam‏27 أغسطس 2025
هذه واحدة من أفضل منشورات المدونات لعام 2025 من قبل @ShunyuYao12 OpenAI Research. "نحن في الشوط الأول من الذكاء الاصطناعي ،" إنه دليل على ما هو أكثر أهمية في أبحاث الذكاء الاصطناعي والنظام البيئي للشركات الناشئة ، وكيفية الاستعداد بشكل أفضل لذلك. لعقود من الزمان ، ركزت أبحاث الذكاء الاصطناعي على الخوارزميات والنماذج الجديدة للتغلب على المعايير. لكن شيئا مهما غير اللعبة: "RL يعمم أخيرا". "وصفة" العمل: التدريب المسبق للغة الضخم (السابقات) + مقياس + التفكير كفعل داخل حلقة RL. نتيجة هذا التسلق المعياري. تتحول اللعبة: من حل المشكلات إلى تحديد المشكلات الصحيحة. يصبح التقييم مركز الصدارة. المعيار الأساسي الآن هو "مشكلة المنفعة". لا تترجم المعايير بشكل جيد إلى مهام العالم الحقيقي. إذن هذا هو كتاب قواعد اللعبة: اختراع إعدادات التقييم المرتبطة بالمنفعة الحقيقية. ثم قم بتطبيق الوصفة للفوز بموجب تلك القواعد الجديدة. في RL ، الثلاثي الرئيسي هو البيئة والخوارزميات والسابقات. لقد أمضينا الكثير من الوقت في أفضل الطحالب ولكن الطبوليات مفرطة في البيئة التي ولدوا فيها. بالنسبة إلى "النصف الثاني" ، التقييم = تصميم البيئة: قم ببناء إعدادات أقرب إلى الواقع (إنسان في الحلقة ، وغير IID ، وتسلسل / مع ذاكرة) لدفع المنفعة الحقيقية ، وليس فقط الانتصارات المعيارية.
‏‎378‏