هل حاول أي شخص RL إعادة كتابة المطالبات لنماذج التفكير لتحسين المخرجات بشكل أكبر؟ أفترض ذلك ، يبدو الأمر واضحا جدا ، لكن إذا لم يكن الأمر كذلك ، فأنا أريد تجربته. إذا كنت تعرف أي عمل موجود هنا ، فالرجاء lmk حتى لا أعيد القيام بشيء قام به الناس بالفعل!
أعني بهذا ما يلي: - خذ نموذج تفكير مجمد ومدرب بالفعل (أي o4-mini عبر واجهة برمجة التطبيقات) - أضف LLM أصغر يأخذ مطالبة ، ويعيد كتابته لتحسين كيفية أداء النموذج المجمد - قم بتحديث أوزان LLM الأصغر ، واحتفظ ب LLM الأكبر مجمدا الأمل هو أن يتعلم LLM الصغير "توجيه" CoT للنموذج الأكبر المجمد بشكل أفضل من الإنسان ، مما يزيد من الأداء.
ذكرني @corbtt بهذا العمل من قبل @brendanh0gan ... بريندان ، كيف سارت الأمور؟ يبدو مشابها جدا لما أفكر فيه هنا.
Brendan Hogan
Brendan Hogan‏3 يوليو، 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
‏‎17.48‏K