Atropos v0.3 خارج الآن! شهد إطار عمل RL Environments الخاص بنا الكثير من الترقيات منذ الإصدار 0.2 - بعض النقاط البارزة: - يمكن الآن استخدام Atropos كإطار عمل للمقارنة المعيارية والتقييمات من قبل @rogershijin ، مع أول معيار خارجي لدينا ، Reward-Bench 2! - تمت إضافة Reasoning Gym ، وهو عبارة عن صالة ألعاب رياضية خارجية تم نقلها إلى atropos مع أكثر من 100 مهمة تفكير من قبل @neurosp1ke والأصدقاء - @max_paperclips معسكر تدريبي متكامل للمنطق في @intern_lm ، مضيفا 1000+ مهمة تفكير جديدة ل RL - أضاف @dmayhem93 المهندس الرئيسي لشركة Atropos العشرات من إصلاحات الأخطاء وغيرها من تحسينات الموثوقية والتوافق ، ودعم أفضل للبيئات المتعددة ، و CI / CD - تم دمج العديد من بيئات هاكاثون Atropos في /environments/community - لإدراجها جميعا ستشغل معظم مساحة الشاشة ، ولكن بعض النقاط البارزة: VR-CLI بواسطة @JakeABoggs ، Philosophy RLAIF ، Adaptive LLM Teachers ، WebVoyager ، تصميم البروتين بواسطة @hallerite ، بيئة توجيه نموذجية بواسطة @gabinfay ، متعددة على إثبات الهزيل ، ساحة catbot ، مواجهة البوكيمون ، البوكر ، الأطباء المتعاونين ، الشعر السنسكريتي من @khoomeik وأكثر من ذلك بكثير! - تشمل البيئات الجديدة البارزة الأخرى المدعومة رسميا ما يلي: تنسيق الإجابة بعد البيئة بيئة pydantic إلى JSON المنقولة من عمل @MatternJustus التعليمات التالية المنقولة من عمل @natolambert و @allen_ai عد الحروف - 47 مساهما جديدا تماما! تحقق من سجل التغيير الكامل هنا:
Teknium (e/λ)
Teknium (e/λ)‏18 يوليو، 03:22
لقد قمت للتو بدمج العلاقات العامة لبيئة لتحسين LLM كقاض بالإضافة إلى تقييم النماذج على قدرتها على إصدار الأحكام! هل تعلم أن جميع بيئات RL التي يمكن التحقق منها مكافئة تقريبا للمعايير (والعكس صحيح!)؟ لذلك أضفنا أمر تقييم إلى قاعدة Atropos والآن يمكنك تشغيل المعايير من خلال بيئات Atropos. لقد شعرنا بالإحباط من العمل مع العديد من الأطر المعيارية التي كانت قديمة أو غير قابلة للاستخدام ، لذلك قمنا بتنفيذ وضع التقييم فقط في Atropos ، إطار بيئات RL الخاص بنا. لذا كان أول منفذ لنا من خارج بيئاتنا الحالية هو مقعد المكافآت الخاص @natolambert! ملاحظة: إنه يدعم فقط نماذج المكافآت التوليدية (قضاة LLM العاديين) في الوقت الحالي. تحقق من العلاقات العامة هنا:
‏‎24.86‏K