متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

هل حاول أي شخص RL إعادة كتابة المطالبات لنماذج التفكير لتحسين المخرجات بشكل أكبر؟ أفترض ذلك ، يبدو الأمر واضحا جدا ، لكن إذا لم يكن الأمر كذلك ، فأنا أريد تجربته. إذا كنت تعرف أي عمل موجود هنا ، فالرجاء lmk حتى لا أعيد القيام بشيء قام به الناس بالفعل!

أعني بهذا ما يلي: - خذ نموذج تفكير مجمد ومدرب بالفعل (أي o4-mini عبر واجهة برمجة التطبيقات) - أضف LLM أصغر يأخذ مطالبة ، ويعيد كتابته لتحسين كيفية أداء النموذج المجمد - قم بتحديث أوزان LLM الأصغر ، واحتفظ ب LLM الأكبر مجمدا الأمل هو أن يتعلم LLM الصغير "توجيه" CoT للنموذج الأكبر المجمد بشكل أفضل من الإنسان ، مما يزيد من الأداء.

ذكرني @corbtt بهذا العمل من قبل @brendanh0gan ... بريندان ، كيف سارت الأمور؟ يبدو مشابها جدا لما أفكر فيه هنا.

‏‎17.48‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز