المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل حاول أي شخص RL إعادة كتابة المطالبات لنماذج التفكير لتحسين المخرجات بشكل أكبر؟
أفترض ذلك ، يبدو الأمر واضحا جدا ، لكن إذا لم يكن الأمر كذلك ، فأنا أريد تجربته.
إذا كنت تعرف أي عمل موجود هنا ، فالرجاء lmk حتى لا أعيد القيام بشيء قام به الناس بالفعل!
أعني بهذا ما يلي:
- خذ نموذج تفكير مجمد ومدرب بالفعل (أي o4-mini عبر واجهة برمجة التطبيقات)
- أضف LLM أصغر يأخذ مطالبة ، ويعيد كتابته لتحسين كيفية أداء النموذج المجمد
- قم بتحديث أوزان LLM الأصغر ، واحتفظ ب LLM الأكبر مجمدا
الأمل هو أن يتعلم LLM الصغير "توجيه" CoT للنموذج الأكبر المجمد بشكل أفضل من الإنسان ، مما يزيد من الأداء.
ذكرني @corbtt بهذا العمل من قبل @brendanh0gan ...
بريندان ، كيف سارت الأمور؟ يبدو مشابها جدا لما أفكر فيه هنا.

3 يوليو، 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17.48K
الأفضل
المُتصدِّرة
التطبيقات المفضلة