Đây là tóm tắt bằng tiếng Anh đơn giản của một bài nghiên cứu có tên <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Nếu bạn thích những phân tích kiểu này, hãy tham gia <a href=" hoặc theo dõi chúng tôi trên <a href=" <h2>Vấn đề với việc tạo video ngày nay</h2> <p>Trong nhiều năm, việc tạo video và tạo âm thanh đã là những lĩnh vực tách biệt trong các phòng thí nghiệm khác nhau. Các mô hình video hiện tại đã trở nên thực sự ấn tượng, có khả năng tổng hợp các cảnh chân thực với chuyển động phức tạp và chi tiết phong phú. Tuy nhiên, chúng hoạt động trong một khoảng chân không, coi âm thanh như một trang trí tùy chọn hoặc hoàn toàn bỏ qua nó.</p> <p>Điều này tạo ra một vấn đề cụ thể: sự không đồng bộ về thời gian. Khi bạn tạo ra một video về mưa rơi trên mái nhà bằng kim loại, âm thanh (nếu có) được tạo ra độc lập. Một tiếng đóng cửa trong video không đồng bộ với tiếng đóng cửa trong âm thanh. Đoạn đối thoại của một nhân vật không khớp với chuyển động môi của họ. Kết quả cảm thấy kỳ lạ, giống như một bộ phim lồng ghép mà có điều gì đó luôn hơi sai.</p> <p>Vấn đề sâu xa hơn là kiến trúc. Hầu hết các mô hình đa phương thức coi văn bản là nhạc trưởng duy nhất, với mọi thứ khác phục vụ cho nó. Nhưng trong sản xuất phim thực tế, video và âm thanh liên tục thông báo cho nhau. Một cảnh quay cận cảnh về mưa không chỉ liên quan đến pixel, mà còn liên quan đến âm học. Một cảnh chợ đông người cần âm thanh cho biết cuộc trò chuyện nào quan trọng. Người quay phim và kỹ sư âm thanh cần hợp tác, không làm việc theo trình tự.</p> <h2>Tại sao âm thanh cần được sinh ra cùng với hình ảnh, không phải thêm vào sau</h2> <p>Hãy tưởng tượng hai nhạc sĩ trong một căn phòng tối, không thể nhìn thấy nhau nhưng lắng nghe chăm chú. Một người chơi nhạc dây, một người chơi nhạc gõ. Họ chia sẻ một nhạc trưởng (lời nhắc văn bản) và bản ghi tham khảo (mô tả cảnh). Họ không thể nhìn thấy nhau, nhưng họ nghe thấy mình đang tạo ra âm nhạc và họ giữ nhịp. Đó là cái nhìn kiến trúc của SkyReels-V4.</p> <p>Âm thanh không được tạo ra sau video ở đây. Thay vào đó, cả hai nhánh tạo ra song song, điều kiện cho nhau. Nhánh video học rằng một tham chiếu âm thanh chứa tiếng chó sủa, vì vậy nó tổng hợp chuyển động phù hợp với thời gian và năng lượng của tiếng sủa đó. Nhánh âm thanh nghe rằng video chứa một con chó, vì vậy nó tạo ra âm thanh nhất quán với sự hiện diện của động vật đó. Điều này hoàn toàn khác với các phương pháp khác mà gắn âm thanh vào video như một suy nghĩ sau.</p> <p>Khi hai quá trình sinh ra chia sẻ cùng một hiểu biết đầu vào, chúng có thể được phối hợp. Chúng không phải là các mô hình độc lập được chuyển giao theo trình tự, mà là hai phần của một tư tưởng thống nhất.</p> <h2>Kiến trúc: hai dòng với một tâm trí chung</h2> <p>SkyReels-V4 sử dụng một <strong>Transformer khuếch tán đa phương thức hai dòng (MMDiT)</strong> trong đó một nhánh tổng hợp video và một nhánh tạo ra âm thanh, trong khi cả hai đều rút ra từ một nền tảng khái niệm chung. Đây là cách các phần khớp với nhau.</p> <p>Nhánh video tổng hợp các khung hình trong một không gian tiềm ẩn đã học bằng cách sử dụng khuếch tán, chấp nhận điều kiện hình ảnh phong phú: mô tả văn bản, hình ảnh tham khảo, mặt nạ cho việc in lại, thậm chí cả các đoạn video đầy đủ. Nhánh âm thanh tạo ra các phổ âm thanh thông qua cùng một quá trình khuếch tán, được điều kiện hóa dựa trên văn bản và các tham chiếu âm thanh. Cả hai nhánh đều được dựa trên một <strong>Mô hình ngôn ngữ lớn đa phương thức (MMLM)</strong> dựa trên bộ mã hóa văn bản hiểu các khái niệm hình ảnh cũng như ngôn ngữ. Khi bạn mô tả một "cơn bão sấm sét trên cánh đồng lúa mì," bộ mã hóa này nắm bắt cả sự phong phú về hình ảnh và những kỳ vọng âm thanh được nhúng trong mô tả đó.


Tổng quan về kiến trúc SkyReels-V4 cho thấy các nhánh tạo video và âm thanh hai dòng chia sẻ một bộ mã hóa đa phương thức.

Kiến trúc hai dòng với bộ mã hóa đa phương thức chia sẻ, nơi các nhánh video và âm thanh tạo ra đồng thời trong khi được điều kiện bởi cùng một hiểu biết văn bản.

Thông tin chảy từ lời nhắc văn bản vào bộ mã hóa chung, được phân tích thành hiểu biết, và sự hiểu biết đó chảy vào cả hai nhánh. Chúng không chờ đợi nhau, nhưng chúng được phối hợp bởi cùng một đầu vào khái niệm.

Các mô hình khuếch tán là lý tưởng cho việc tạo ra chung này vì cả video và âm thanh đều được hưởng lợi từ việc tinh chỉnh từng bước. Ở mỗi bước khuếch tán, nhánh video có thể được nhẹ nhàng điều chỉnh bởi ước lượng hiện tại của nhánh âm thanh, và ngược lại. Nó giống như hai nhạc sĩ tinh chỉnh màn trình diễn của họ trong thời gian thực, mỗi người lắng nghe và điều chỉnh theo người kia.

Một giao diện cho việc tạo ra, chỉnh sửa và in lại

Đây là nơi sự thanh lịch kiến trúc trở thành sức mạnh thực tiễn. Hầu hết các mô hình video yêu cầu các đường mã khác nhau cho "tạo từ đầu," "chỉnh sửa video này," và "mở rộng đoạn clip này." SkyReels-V4 thống nhất tất cả những điều này dưới một cơ chế duy nhất sử dụng nối kênh.

Mẹo này có vẻ đơn giản. Các kênh đầu vào khác nhau có thể được lấp đầy bằng nội dung khác nhau, hoặc để trống:

  • Tạo video từ văn bản: Tất cả các kênh đầu vào đều trống (được che), vì vậy mô hình tạo ra mọi thứ từ đầu.
  • Hình ảnh thành video: Một hình ảnh khởi đầu được nhúng vào một số kênh nhất định, các kênh khác vẫn trống, và mô hình tạo ra video theo sau.
  • Mở rộng video: Các khung video hiện có lấp đầy một số kênh, các kênh khác được che, và mô hình tạo ra những gì tiếp theo.
  • In lại: Một video với các vùng bị che được cung cấp, các kênh của những vùng đó trống, và mô hình lấp đầy các khoảng trống một cách hợp lý.
  • Chỉnh sửa tham chiếu hình ảnh: Cả một video để chỉnh sửa và một hình ảnh tham khảo cho thấy phong cách mong muốn được nhúng như điều kiện, và mô hình chỉnh sửa tương ứng.

Các phương pháp truyền thống yêu cầu các mô hình hoặc quy trình đào tạo khác nhau cho mỗi nhiệm vụ. SkyReels-V4 học một quá trình khuếch tán thống nhất. Trong quá trình đào tạo, nó thấy các tổ hợp ngẫu nhiên của các kênh được lấp đầy và trống và học cách in lại một cách thông minh. Cách tiếp cận thống nhất này mở rộng tự nhiên đến các kịch bản phức tạp nơi nhiều tham chiếu hướng dẫn việc tạo ra, điều này rất quan trọng cho sản xuất cấp điện ảnh.

Biến độ phân giải điện ảnh thành khả năng tính toán

Tạo video 1080p ở 32 khung hình mỗi giây trong 15 giây là rất tốn kém về tính toán. Bạn không thể đơn giản làm cho quá trình khuếch tán lớn hơn và hy vọng có thời gian suy diễn khả thi. Thay vào đó, SkyReels-V4 sử dụng một chiến lược ba giai đoạn duy trì chất lượng ở những nơi quan trọng nhất trong khi giảm chi phí tính toán ở những nơi khác.

...