المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
وصفة لتدريب Qwen3 1.7B في نموذج DeepResearch
ماذا يعني أن يفكر شيء صغير بعمق؟ تعرف على Lucy ، وهي Qwen3-1.7B تم تدريبها بعد ذلك كنموذج DeepResearch يعتمد على مدققي @willccbb.
المكافآت الأساسية المستندة إلى القواعد:
- صحة الإجابة
نتحقق مما إذا كانت الاستجابة النهائية تحتوي حرفيا على إجابة الحقيقة الأساسية. تطابق السلسلة الفرعية هذا رخيص ويتجنب استدعاء قاضي LLM أكبر.
- نسبة الزيارة/البحث
إذا قام الوكيل بزيارة عدد الصفحات على الأقل بقدر ما يصدر استعلامات البحث، فإنه يتلقى ((visit_search_ratio - 1) / 4) ** 0.25. إذا بحث أكثر مما يزور ، فإن النتيجة هي -0.5.
تنسيق / مكافآت مكافحة القرصنة المكافآت:
- نجاح تنفيذ الأداة
يتم احتساب كل استدعاء واجهة برمجة تطبيقات يتم إرجاعه بدون خطأ. المكافأة هي (successful_calls * unique_tools_used) / total_call_attempts.
- كفاءة التفكير
إن العقوبة العادية المنحرفة التي تتمحور حول 70 رمزا تثبط سلسلة التفكير التي لا نهاية لها بين استدعاء الأدوات مع السماح برموز كافية للتخطيط.
هذه هي الطريقة التي تعلم بها Qwen3 1.7B البحث عن المعلومات وزيارتها وتوليفها. يمكن للنماذج الصغيرة إجراء بحث عميق أيضا!
39.07K
الأفضل
المُتصدِّرة
التطبيقات المفضلة