تعتبر النماذج الكبيرة وكلاء رائعين ولكنها غالبا ما تكون كبيرة جدا أو مغلقة أو حساسة بحيث لا يمكن ضبطها فكرة: تدريب نموذج صغير لصياغة سياق لنموذج كبير مجمد ، وتسجيل مخرجات النموذج الكبير ، واستخدام ذلك كمكافأة للنموذج الصغير GRPO لضبط السياق. المزيد أدناه
‏‎11.6‏K