لقد قمت للتو بدمج العلاقات العامة لبيئة لتحسين LLM كقاض بالإضافة إلى تقييم النماذج على قدرتها على إصدار الأحكام! هل تعلم أن جميع بيئات RL التي يمكن التحقق منها مكافئة تقريبا للمعايير (والعكس صحيح!)؟ لذلك أضفنا أمر تقييم إلى قاعدة Atropos والآن يمكنك تشغيل المعايير من خلال بيئات Atropos. لقد شعرنا بالإحباط من العمل مع العديد من الأطر المعيارية التي كانت قديمة أو غير قابلة للاستخدام ، لذلك قمنا بتنفيذ وضع التقييم فقط في Atropos ، إطار بيئات RL الخاص بنا. لذا كان أول منفذ لنا من خارج بيئاتنا الحالية هو مقعد المكافآت الخاص @natolambert! ملاحظة: إنه يدعم فقط نماذج المكافآت التوليدية (قضاة LLM العاديين) في الوقت الحالي. تحقق من العلاقات العامة هنا:
‏‎20.54‏K