DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Devam eden SWE-1.6 eğitim programımızın erken bir önizlemesini paylaşıyoruz. Aynı önceden eğitilmiş modelde post-eğitim alırken SWE-1.5'i önemli ölçüde geliştiriyor - ve 950 tok/s ile aynı hızda çalışıyor. SWE-Bench Pro'da ise en iyi açık kaynak modelleri geride bırakıyor. Önizleme modeli hâlâ aşırı düşünme ve aşırı kendini doğrulama gibi istenmeyen davranışlar gösteriyor ve bunları geliştirmeyi hedefliyoruz. Windsurf'te küçük bir kullanıcı kitlesine erken erişim sunuyoruz.

RL tarifimizi geliştirdik ve altyapımızı ölçeklendirerek SWE-1.5'i eğitmek için kullanılanlardan iki kat daha fazla hesaplama kapasitesini açtık. RL ortamlarının sayısını önemli ölçüde ölçeklendirdik ve daha fazla RL eğitimiyle devam eden gelişmeler gördük.

Modelin daha fazla düşünmeyi ve zorlu SWE-Bench Pro problemlerinde daha fazla dönüş için yineleme yapmayı öğrenmesini izlemek eğlenceliydi. Öte yandan, köpek mamalarımızda aşırı düşünme ve aşırı kendini doğrulama gözlemleriz. Etkileşim ile uzun ufuk düşüncesi arasında doğru dengeyi bulmak aktif bir araştırma alanıdır.

Eğitim yığınımızı 3 ay öncesine göre 6 kat daha hızlı çalışacak şekilde optimize ettik. Örneğin, algoritmamız artık daha yüksek duraklılığı tolere ediyor ve bu da çıkarım motorlarımızı tam olarak kullanmamıza olanak sağladı. Blog yazımızda (), eğitim optimizasyonlarımız ve asenkron RL için GPU tahsisini nasıl yönettiğimiz hakkında daha fazla detay paylaşıyoruz.

69

En İyiler

Sıralama

Takip Listesi