المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هذا الرسم البياني يعرض لك بهدوء الدليل الجديد لشركات البرمجة بالذكاء الاصطناعي ولا أحد يتحدث عنه.
بدأ كل من Cognition وCursor كأغلفة تعمل على كلود وGPT. الآن انظر إلى هذا المعيار. مؤشر كوجنيشن SWE-1.6 بنسبة 51.7٪. مؤلف كورسر - 1.5 بنسبة 50.8٪. كلاهما يقعان على مسافة قريبة من كلود أوبوس 4.6 بنسبة 53.6٪ وGPT-5.3-Codex بنسبة 56.8٪.
لم تقم أي من الشركتين بتدريب نموذج أساس من الصفر. كلاهما استبدى نماذج الأساس مفتوحة المصدر وتطبيق التعلم المعزز في بيئات البرمجة الحقيقية. قال سويكس من Cognition مباشرة في Hacker News: "تصبح جودة النموذج الأساسي أقل أهمية طالما أنه جيد بما فيه الكفاية، لأن التعلم الواقعي وما بعد التدريب يسيطر ويصبح الهدف الأساسي للتفريق."
هذه هي الأطروحة. النموذج الأساسي هو سلعة. خط أنابيب التعلم المعزز المدرب على الهيكل الخاص بك، وأنماط استخدام الأدوات، وجلسات المستخدم الحقيقية هو الطبقة القابلة للدفاع. دربت شركة كوجنيشن على SWE-1.6 على سلسلة كاسكيد الخاصة بهم مع حسابات RL أكثر بمقدار مرتبة بمقدار 200 من SWE-1.5. درب كورسر المؤلف داخل بيئات بيئة تطوير التطوير الحية باستخدام تحرير الملفات، والبحث الدلالي، وأوامر الطرفية. كلاهما صمما النموذج والمنتج معا.
الرياضيات في البداية تروي القصة. حقق SWE-1.5 نسبة 40.1٪. SWE-1.6 تسجل 51.7٪. نفس النموذج الأساسي. نفس الاستنتاج 950 توك/ث على سيريبراس. كل التحسن بمقدار 11.6 نقطة جاء من وصفات التعلم الواقعي الأفضل ومزيد من الحوسبة. هذا معدل تحسن أسرع مما تحصل عليه معظم مختبرات الأساس من التوسع قبل التدريب.
هذه شركتان بقيمة 10 مليار دولار+ (Cognition ب 10.2 مليار دولار، Cursor ب 29.3 مليار دولار) تتجهان بشكل مستقل إلى نفس الاستنتاج: لا تحتاج لبناء GPT-5 لتنافس GPT-5 في البرمجة. تحتاج إلى التعلم الواقعي على نطاق واسع فوق قاعدة جيدة بما فيه الكفاية، مصمم بالتعاون مع بنية وكيلك.
طبقة السرعة مهمة أيضا. يعمل نظام الإدراك بسرعة 950 توك/ث عبر سيريبراس. يعمل Composer بسرعة 250 توك/ثانية. في سير العمل الوكيلي حيث يتكرر النموذج عشرات المرات في كل مهمة، يتراكم هذا الفارق في السرعة بأربعة أضعاف إلى تجارب مستخدم مختلفة بشكل كبير. الإدراك هو المراهنة على السرعة بينما الدقة تتفوق على الدقة وحدها.
السؤال الذي يجب أن يقلق OpenAI وAnthropic: إذا تمكنت شركتان ناشئتان من الوصول إلى أفضل نماذجكما باستخدام التعلم الواقعي في قواعد مفتوحة المصدر بفارق 5 نقاط، ماذا يحدث عندما تتحسن قواعد المصدر المفتوح؟ كل تحسين في لاما أو كوين يتدفق مباشرة إلى خط أنابيب الإدراك وكورسور. مختبرات الأساس تدعم منافسيها الخاصين بهم أساسا.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
