Bu, <a href=" Multi-modal Video-Audio Üretimi, Boyama ve Düzenleme modeli adlı bir araştırma makalesinin Plain English Papers özetidir</a>. Bu tür analizleri seviyorsanız, <a href=" sayfasına katılın veya <a href=" sayfamızdan bizi takip edin. <h2>Günümüzde video üretimindeki sorun</h2> <p>Yıllardır, video üretimi ve ses üretimi ayrı laboratuvarlarda birbirinden yabancı. Mevcut video modelleri gerçekten etkileyici hale geldi; fotogerçekçi sahneleri karmaşık hareket ve zengin detaylarla sentezleyebiliyor. Yine de boşlukta çalışıyorlar, sesi isteğe bağlı bir süs olarak görüyorlar ya da tamamen görmezden geliyorlar.</p> <p>Bu da somut bir sorun yaratır: zamansal hizalanma. Yağmurun metal çatıya çarptığı bir video oluşturduğunuzda, ses (varsa) bağımsız olarak oluşturulur. Videodaki kapı çarpması, seste kapı çarpması ile senkronize olmuyor. Bir karakterin diyalogları dudak hareketleriyle uyuşmaz. Sonuç, her zaman biraz yanlış bir şeyin olduğu dublajlı bir film gibi tuhaf hissettiriyor.</p> <p>Daha derin bir sorun mimari. Çoğu multimodal model, metni tek iletken olarak görür, diğer her şey ise ona hizmet eder. Ama gerçek film yapımında, video ve ses sürekli birbirini bilgilendirir. Sıkı bir yağmur görüntüsü sadece piksellerle ilgili değil, akustikle ilgilidir. Kalabalık bir pazar ortamı, hangi konuşmaların önemli olduğunu söyleyen bir ses kalitesine ihtiyaç duyar. Görüntü yönetmeni ve ses mühendisi iş birliği yapmalı, sıralı çalışmalı değil.</p> <h2>Neden sesin vizyonla doğması gerekiyor, sonra eklenmemesi</h2> <p>Karanlık bir odada iki müzisyeni hayal edin; birbirlerini göremiyorlar ama dikkatle dinliyorlar. Biri yaylılar, biri vurmalı aletler çalıyor. Bir şef (metin istemi) ve referans kaydı (sahne tanımı) paylaşırlar. Birbirlerini göremiyorlar ama müzik yaparken kendilerini duyuyor ve zamanında kalıyorlar. İşte SkyReels-V4'ün mimari içgörüsü bu.</p> <p>Burada video sonrası ses üretilmez. Bunun yerine, her iki dal paralel olarak üretir ve birbirini koşullandırmaya çalışır. Video şubesi, bir ses referansında bir köpek havladığını öğrenir, bu yüzden o havlamanın zamanlaması ve enerjisini hareket eşleştirmesini sağlar. Ses dalı, videoda bir köpek olduğunu duyar, bu yüzden o hayvanın varlığına uygun sesler üretir. Bu, sesi videoya sonradan aklıma bağlayan diğer yaklaşımlardan temelde farklıdır.</p> <p>İki üretken süreç aynı giriş anlayışını paylaştığında, organize edilebilirler. Bunlar sırayla aktarılan bağımsız modeller değil, tek bir düşüncenin iki parçası.</p> <h2>Mimari: ortak bir zihin ile çift akış</h2> <p>SkyReels-V4, bir dalın video sentezlediği, diğerinin ses ürettiği, her ikisinin de ortak kavramsal temelden yararlandığı bir <strong>Çift Akışlı Multimodal Difüzyon Transformatör (MMDiT</strong>) kullanır. İşte parçaların nasıl birbirine uyduğu.</p> <p>Video dalı, öğrenilmiş gizli bir mekânda difüzyon kullanarak çerçeveleri sentezler ve zengin görsel koşullandırmayı kabul eder: metin açıklamaları, referans görüntüler, boyama için maskeler, hatta tam video klipleri. Ses dalı, aynı difüzyon süreciyle, metin ve ses referanslarına bağlı olarak ses spektrogramları üretir. Her iki dal, hem görsel kavramları hem de dili anlayan <strong>Multimodal Büyük Dil Modeli (MMLM)</strong> tabanlı metin kodlayıcısına dayanır. "Buğday tarlası üzerinde gök gürültüsü" olarak tanımladığınızda, bu kodlayıcı hem görsel zenginliği hem de o tanımın içindeki ses beklentilerini yakalıyor.
SkyReels-V4 mimarisi genel bakışı, çift akışlı video ve ses üretim dallarının multimodal kodlayıcıyı paylaştığını gösteriyor.
ve ses dallarının aynı metin anlayışıyla koşullanırken aynı anda üretildiği ortak multimodal kodlayıcıya sahip çift akışlı mimari.
Bilgi, metin isteğinden paylaşılan kodlayıcıya akar, anlayışa ayrılır ve bu anlayış her iki dala da akar. Birbirlerini beklemiyorlar, ama aynı kavramsal girdilerle yönetiliyorlar.
Difüzyon modelleri bu eklem nesli için idealdir çünkü hem video hem de ses adım adım iyileştirmeden faydalanır. Her difüzyon adımında, video dalı ses dalının mevcut tahminiyle nazikçe itilebilir ve tam tersi de geçerlidir. Bu, iki müzisyenin performanslarını gerçek zamanlı olarak geliştirdiği gibi, her biri diğerini dinliyor ve uyum sağlıyor.
Üretim, düzenleme ve boyama için tek bir arayüz
İşteburada mimari zarafet pratik güce dönüşüyor. Çoğu video modeli, "sıfırdan oluşturmak", "bu videoyu düzenlemek" ve "bu klipi uzatmak" için ayrı kod yolları gerektirir. SkyReels-V4, tüm bunları kanal birleştirme yoluyla tek bir mekanizma altında birleştirir.
Numara aldatıcı derecede basit. Farklı giriş kanalları farklı içeriklerle doldurulabilir veya maskelenmiş bırakılabilir:
- Metinden videoya üretim: Tüm giriş kanalları boş (maskelidir), bu yüzden model her şeyi sıfırdan üretir.
- Image-to-video: Başlangıç görüntüsü belirli kanallara gömülür, diğerleri boş kalır ve model takip eden videoyu üretir.
- Video uzantısı: Mevcut video kareleri bazı kanalları doldurur, bazıları maskelenir ve model sonraki kanalı oluşturur.
- Inpainting: Maskeli bölgeler içeren bir video sunuluyor, o bölgelerin kanalları boş ve model boşlukları tutarlı bir şekilde dolduruyor.
- Vizyon referanslı düzenleme: Hem düzenlenecek video hem de istenen stili gösteren referans görüntü koşullandırma olarak gömülür ve model buna göre düzenlenir.
Geleneksel yaklaşımlar her görev için farklı modeller veya eğitim prosedürleri gerektirir. SkyReels-V4 tek bir birleşik difüzyon sürecini öğrenir. Eğitim sırasında, dolu ve boş kanalların rastgele kombinasyonlarını görür ve akıllıca boyamayı öğrenir. Bu birleşik yaklaşım, nesli yönlendiren çoklu referansların olduğu karmaşık senaryolara doğal olarak uzanıyor; bu da sinema düzeyinde prodüksiyon için hayati öneme sahip.
Sinema çözünürlüğünü hesaplamalı olarak uygulanabilir kılmak
1080p video üretimi saniyede 32 kare hızında 15 saniye boyunca hesaplama açısından maliyetlidir. Difüzyon sürecini sadece büyütebilir ve mümkün çıkarım süreleri umamazsınız. Bunun yerine, SkyReels-V4, kaliteyi en önemli olduğu yerde koruyan ve başka yerlerde hesaplama maliyetini azaltan üç aşamalı bir strateji kullanıyor.
...