متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

هذه واحدة من أفضل منشورات المدونات لعام 2025 من قبل @ShunyuYao12 OpenAI Research. "نحن في الشوط الأول من الذكاء الاصطناعي ،" إنه دليل على ما هو أكثر أهمية في أبحاث الذكاء الاصطناعي والنظام البيئي للشركات الناشئة ، وكيفية الاستعداد بشكل أفضل لذلك. لعقود من الزمان ، ركزت أبحاث الذكاء الاصطناعي على الخوارزميات والنماذج الجديدة للتغلب على المعايير. لكن شيئا مهما غير اللعبة: "RL يعمم أخيرا". "وصفة" العمل: التدريب المسبق للغة الضخم (السابقات) + مقياس + التفكير كفعل داخل حلقة RL. نتيجة هذا التسلق المعياري. تتحول اللعبة: من حل المشكلات إلى تحديد المشكلات الصحيحة. يصبح التقييم مركز الصدارة. المعيار الأساسي الآن هو "مشكلة المنفعة". لا تترجم المعايير بشكل جيد إلى مهام العالم الحقيقي. إذن هذا هو كتاب قواعد اللعبة: اختراع إعدادات التقييم المرتبطة بالمنفعة الحقيقية. ثم قم بتطبيق الوصفة للفوز بموجب تلك القواعد الجديدة. في RL ، الثلاثي الرئيسي هو البيئة والخوارزميات والسابقات. لقد أمضينا الكثير من الوقت في أفضل الطحالب ولكن الطبوليات مفرطة في البيئة التي ولدوا فيها. بالنسبة إلى "النصف الثاني" ، التقييم = تصميم البيئة: قم ببناء إعدادات أقرب إلى الواقع (إنسان في الحلقة ، وغير IID ، وتسلسل / مع ذاكرة) لدفع المنفعة الحقيقية ، وليس فقط الانتصارات المعيارية.

الأفضل

المُتصدِّرة

التطبيقات المفضلة