المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ستنمو الشركات التي تبني معايير أفضل بشكل أسرع من الشركات التي تبني نماذج أفضل
يمكن ل الذكاء الاصطناعي بالفعل حل مسابقات الشطرنج والامتحانات والترميز ، ولكن لا يزال غير قادر على حجز عشاء بشكل موثوق
لقد انتقل عنق الزجاجة من الذكاء إلى التقييم

27 أغسطس 2025
هذه واحدة من أفضل منشورات المدونات لعام 2025 من قبل @ShunyuYao12 OpenAI Research.
"نحن في الشوط الأول من الذكاء الاصطناعي ،"
إنه دليل على ما هو أكثر أهمية في أبحاث الذكاء الاصطناعي والنظام البيئي للشركات الناشئة ، وكيفية الاستعداد بشكل أفضل لذلك.
لعقود من الزمان ، ركزت أبحاث الذكاء الاصطناعي على الخوارزميات والنماذج الجديدة للتغلب على المعايير.
لكن شيئا مهما غير اللعبة: "RL يعمم أخيرا".
"وصفة" العمل: التدريب المسبق للغة الضخم (السابقات) + مقياس + التفكير كفعل داخل حلقة RL.
نتيجة هذا التسلق المعياري. تتحول اللعبة: من حل المشكلات إلى تحديد المشكلات الصحيحة. يصبح التقييم مركز الصدارة.
المعيار الأساسي الآن هو "مشكلة المنفعة". لا تترجم المعايير بشكل جيد إلى مهام العالم الحقيقي.
إذن هذا هو كتاب قواعد اللعبة: اختراع إعدادات التقييم المرتبطة بالمنفعة الحقيقية. ثم قم بتطبيق الوصفة للفوز بموجب تلك القواعد الجديدة.
في RL ، الثلاثي الرئيسي هو البيئة والخوارزميات والسابقات. لقد أمضينا الكثير من الوقت في أفضل الطحالب ولكن الطبوليات مفرطة في البيئة التي ولدوا فيها.
بالنسبة إلى "النصف الثاني" ، التقييم = تصميم البيئة: قم ببناء إعدادات أقرب إلى الواقع (إنسان في الحلقة ، وغير IID ، وتسلسل / مع ذاكرة) لدفع المنفعة الحقيقية ، وليس فقط الانتصارات المعيارية.

378
الأفضل
المُتصدِّرة
التطبيقات المفضلة