متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

وصفة لتدريب Qwen3 1.7B في نموذج DeepResearch ماذا يعني أن يفكر شيء صغير بعمق؟ تعرف على Lucy ، وهي Qwen3-1.7B تم تدريبها بعد ذلك كنموذج DeepResearch يعتمد على مدققي @willccbb. المكافآت الأساسية المستندة إلى القواعد: - صحة الإجابة نتحقق مما إذا كانت الاستجابة النهائية تحتوي حرفيا على إجابة الحقيقة الأساسية. تطابق السلسلة الفرعية هذا رخيص ويتجنب استدعاء قاضي LLM أكبر. - نسبة الزيارة/البحث إذا قام الوكيل بزيارة عدد الصفحات على الأقل بقدر ما يصدر استعلامات البحث، فإنه يتلقى ((visit_search_ratio - 1) / 4) ** 0.25. إذا بحث أكثر مما يزور ، فإن النتيجة هي -0.5. تنسيق / مكافآت مكافحة القرصنة المكافآت: - نجاح تنفيذ الأداة يتم احتساب كل استدعاء واجهة برمجة تطبيقات يتم إرجاعه بدون خطأ. المكافأة هي (successful_calls * unique_tools_used) / total_call_attempts. - كفاءة التفكير إن العقوبة العادية المنحرفة التي تتمحور حول 70 رمزا تثبط سلسلة التفكير التي لا نهاية لها بين استدعاء الأدوات مع السماح برموز كافية للتخطيط. هذه هي الطريقة التي تعلم بها Qwen3 1.7B البحث عن المعلومات وزيارتها وتوليفها. يمكن للنماذج الصغيرة إجراء بحث عميق أيضا!

‏‎39.07‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز