DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Bu grafik, yapay zeka kodlama şirketleri için yeni oyun kitabını sessizce gösteriyor ve kimse bundan bahsetmiyor. Biliş ve Cursor, Claude ve GPT'de çalışan ambalajlar olarak başladı. Şimdi bu kıyasa bakın. Bilişsel Bilim, SWE-1.6 oranında %51.7 oranında. Cursor's Composer-1.5 oranı %50.8 oranında. Her ikisi de Claude Opus 4.6'ya %53,6 ve GPT-5.3-Codex ile %56,8 ile yakın konumda. Hiçbir şirket sıfırdan bir temel modeli eğitmedi. Her ikisi de açık kaynak temel modelleri aldı ve gerçek kodlama ortamlarında pekiştirici öğrenme uyguladı. Cognition'dan Swyx, Hacker News'te bunu doğrudan şöyle söyledi: "Temel modelin kalitesi yeterince iyi olduğu sürece giderek daha az önemli, çünkü o zaman gerçek yaşam ve eğitim sonrası süreç devralır ve tüm farklılaşma noktası olur." Tez bu. Temel model bir metadır. Gerçek Düzen Akış Akışı Hattı, Ajanların Kemeri Kullandığın, Araç Kullanım Kalıpları, gerçek kullanıcı oturumların üzerinde eğitilen Gerçek Düzen Hattı Savunulabilir katmandır. Cognition, SWE-1.6'yı Cascade harness'inde SWE-1.5'ten iki kat daha fazla RL hesaplama ile eğitti. Cursor, Composer'ı canlı IDE ortamlarında dosya düzenleme, anlamsal arama ve terminal komutlarıyla eğitmiştir. İkisi de modeli ve ürünü birlikte tasarladılar. Atlamadaki matematik hikayeyi anlatıyor. SWE-1.5 %40.1 puan aldı. SWE-1.6 %51.7 puan alır. Aynı baz model. Cerebras'ta da aynı 950 tok/s çıkarımı. Tüm 11.6 puanlık artış daha iyi gerçek gerçek tarifler ve daha fazla hesaplama sayesinde geldi. Bu, çoğu temel laboratuvarın ön eğitim ölçeklendirmesinden elde ettiği gelişme hızından daha hızlı. Bu, iki 10 milyar dolarlık+ şirketin (Cognition 10,2 milyar dolar, Cursor 29,3 milyar dolar) bağımsız olarak aynı sonuca yaklaşması: GPT-5 ile kodlama konusunda rekabet etmek için GPT-5 yapmanıza gerek yok. Gerçek Düzen Hayatını ölçekli ve yeterince iyi bir üssen, ajan altyapınızla birlikte tasarlanmış bir temel gerektirir. Hız katmanı da önemli. Bilişsel sistem Cerebras'ta 950 tok/s hızında ilerler. Besteci 250 tok/s hızında çalışıyor. Modelin her görev başına onlarca kez döngü yaptığı ajanik iş akışlarında, bu 4x hız farkı anlamlı şekilde farklı kullanıcı deneyimlerine dönüşür. Biliş, bahis hızı ve doğruluğun tek başına doğruluğu yenmesidir. OpenAI ve Anthropic'i endişelendirmesi gereken soru: Eğer iki girişim, açık kaynak tabanlı RL kullanan en iyi modellerinize 5 puan kadar yaklaşabiliyorsa, açık kaynak tabanları daha iyi olduğunda ne olur? Llama veya Qwen'deki her iyileştirme doğrudan Bilişsel ve Cursor'un iş hattına akıyor. Vakıf laboratuvarları esasen kendi rakiplerini sübvanse ediyor.

En İyiler

Sıralama

Takip Listesi