المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هذه واحدة من أفضل منشورات المدونات لعام 2025 من قبل @ShunyuYao12 OpenAI Research.
"نحن في الشوط الأول من الذكاء الاصطناعي ،"
إنه دليل على ما هو أكثر أهمية في أبحاث الذكاء الاصطناعي والنظام البيئي للشركات الناشئة ، وكيفية الاستعداد بشكل أفضل لذلك.
لعقود من الزمان ، ركزت أبحاث الذكاء الاصطناعي على الخوارزميات والنماذج الجديدة للتغلب على المعايير.
لكن شيئا مهما غير اللعبة: "RL يعمم أخيرا".
"وصفة" العمل: التدريب المسبق للغة الضخم (السابقات) + مقياس + التفكير كفعل داخل حلقة RL.
نتيجة هذا التسلق المعياري. تتحول اللعبة: من حل المشكلات إلى تحديد المشكلات الصحيحة. يصبح التقييم مركز الصدارة.
المعيار الأساسي الآن هو "مشكلة المنفعة". لا تترجم المعايير بشكل جيد إلى مهام العالم الحقيقي.
إذن هذا هو كتاب قواعد اللعبة: اختراع إعدادات التقييم المرتبطة بالمنفعة الحقيقية. ثم قم بتطبيق الوصفة للفوز بموجب تلك القواعد الجديدة.
في RL ، الثلاثي الرئيسي هو البيئة والخوارزميات والسابقات. لقد أمضينا الكثير من الوقت في أفضل الطحالب ولكن الطبوليات مفرطة في البيئة التي ولدوا فيها.
بالنسبة إلى "النصف الثاني" ، التقييم = تصميم البيئة: قم ببناء إعدادات أقرب إلى الواقع (إنسان في الحلقة ، وغير IID ، وتسلسل / مع ذاكرة) لدفع المنفعة الحقيقية ، وليس فقط الانتصارات المعيارية.

الأفضل
المُتصدِّرة
التطبيقات المفضلة