Ceci est un résumé en anglais simple d'un article de recherche intitulé <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Si vous aimez ce genre d'analyses, rejoignez <a href=" ou suivez-nous sur <a href=" <h2>Le problème de la génération vidéo aujourd'hui</h2> <p>Depuis des années, la génération vidéo et la génération audio ont été des étrangères dans des laboratoires séparés. Les modèles vidéo actuels sont devenus véritablement impressionnants, capables de synthétiser des scènes photoréalistes avec un mouvement complexe et des détails riches. Pourtant, ils fonctionnent dans un vide, traitant l'audio comme une décoration optionnelle ou l'ignorant complètement.</p> <p>Cela crée un problème concret : le désalignement temporel. Lorsque vous générez une vidéo de la pluie frappant un toit en métal, l'audio (s'il est présent) a été créé indépendamment. Un claquement de porte dans la vidéo ne se synchronise pas avec un claquement de porte dans l'audio. Le dialogue d'un personnage ne correspond pas à ses mouvements de lèvres. Le résultat semble étrange, comme un film doublé où quelque chose est toujours légèrement décalé.</p> <p>Le problème plus profond est architectural. La plupart des modèles multimodaux traitent le texte comme le seul chef d'orchestre, tout le reste servant ce dernier. Mais dans la production cinématographique réelle, la vidéo et l'audio s'informent mutuellement en permanence. Un gros plan de la pluie ne concerne pas seulement les pixels, mais aussi l'acoustique. Une scène de marché bondée a besoin d'un audio qui vous indique quelles conversations sont importantes. Le directeur de la photographie et l'ingénieur du son doivent collaborer, pas travailler de manière séquentielle.</p> <h2>Pourquoi le son doit naître avec la vision, et non être ajouté plus tard</h2> <p>Imaginez deux musiciens dans une pièce sombre, incapables de se voir mais écoutant attentivement. L'un joue des cordes, l'autre joue de la percussion. Ils partagent un chef d'orchestre (le prompt textuel) et un enregistrement de référence (la description de la scène). Ils ne peuvent pas se voir, mais ils s'entendent faire de la musique et restent synchronisés. C'est l'idée architecturale de SkyReels-V4.</p> <p>L'audio n'est pas généré après la vidéo ici. Au lieu de cela, les deux branches génèrent en parallèle, se conditionnant mutuellement. La branche vidéo apprend qu'une référence audio contient un chien qui aboie, donc elle synthétise un mouvement correspondant au timing et à l'énergie de cet aboiement. La branche audio entend que la vidéo contient un chien, donc elle génère des sons cohérents avec la présence de cet animal. C'est fondamentalement différent des autres approches qui ajoutent l'audio à la vidéo comme une réflexion.</p> <p>Lorsque deux processus génératifs partagent la même compréhension d'entrée, ils peuvent être orchestrés. Ce ne sont pas des modèles indépendants remis séquentiellement, ce sont deux parties d'une seule pensée unifiée.</p> <h2>Architecture : flux doubles avec un esprit partagé</h2> <p>SkyReels-V4 utilise un <strong>Transformateur de Diffusion Multimodal à Flux Double (MMDiT)</strong> où une branche synthétise la vidéo et l'autre génère l'audio, tandis que les deux s'appuient sur une base conceptuelle partagée. Voici comment les pièces s'assemblent.</p> <p>La branche vidéo synthétise des images dans un espace latent appris en utilisant la diffusion, acceptant un conditionnement visuel riche : descriptions textuelles, images de référence, masques pour inpainting, même des clips vidéo complets. La branche audio génère des spectrogrammes sonores via le même processus de diffusion, conditionnés par des références textuelles et audio. Les deux branches sont ancrées dans un <strong>Modèle de Langage Large Multimodal (MMLM)</strong> basé sur un encodeur textuel qui comprend les concepts visuels ainsi que le langage. Lorsque vous décrivez un "orage au-dessus d'un champ de blé", cet encodeur capture à la fois la richesse visuelle et les attentes sonores intégrées dans cette description.
Aperçu de l'architecture SkyReels-V4 montrant les branches de génération vidéo et audio à flux double partageant un encodeur multimodal.
L'architecture à flux double avec un encodeur multimodal partagé, où les branches vidéo et audio génèrent simultanément tout en étant conditionnées par la même compréhension textuelle.
Les informations circulent du prompt textuel vers l'encodeur partagé, sont décomposées en compréhension, et cette compréhension circule vers les deux branches. Elles n'attendent pas l'une l'autre, mais elles sont orchestrées par la même entrée conceptuelle.
Les modèles de diffusion sont idéaux pour cette génération conjointe car la vidéo et l'audio bénéficient tous deux d'un raffinement étape par étape. À chaque étape de diffusion, la branche vidéo peut être doucement poussée par l'estimation actuelle de la branche audio, et vice versa. C'est comme deux musiciens affinant leur performance en temps réel, chacun écoutant et s'ajustant à l'autre.
Une interface pour la génération, l'édition et l'inpainting
C'est ici que l'élégance architecturale devient une puissance pratique. La plupart des modèles vidéo nécessitent des chemins de code séparés pour "générer à partir de zéro", "éditer cette vidéo" et "étendre ce clip". SkyReels-V4 unifie tout cela sous un seul mécanisme utilisant la concaténation de canaux.
Le truc est trompeusement simple. Différents canaux d'entrée peuvent être remplis avec différents contenus, ou laissés masqués :
- Génération texte-à-vidéo : Tous les canaux d'entrée sont vides (masqués), donc le modèle génère tout à partir de zéro.
- Image-à-vidéo : Une image de départ est intégrée dans certains canaux, d'autres restent vides, et le modèle génère la vidéo qui suit.
- Extension vidéo : Des images vidéo existantes remplissent certains canaux, d'autres sont masquées, et le modèle génère ce qui vient ensuite.
- Inpainting : Une vidéo avec des régions masquées est fournie, les canaux de ces régions sont vides, et le modèle remplit les lacunes de manière cohérente.
- Édition référencée par la vision : À la fois une vidéo à éditer et une image de référence montrant le style souhaité sont intégrées comme conditionnement, et le modèle édite en conséquence.
Les approches traditionnelles nécessitent différents modèles ou procédures d'entraînement pour chaque tâche. SkyReels-V4 apprend un processus de diffusion unifié. Pendant l'entraînement, il voit des combinaisons aléatoires de canaux remplis et vides et apprend à inpaint intelligemment. Ce traitement unifié s'étend naturellement à des scénarios complexes où plusieurs références guident la génération, ce qui est crucial pour une production de niveau cinématographique.
Rendre la résolution cinématographique réalisable sur le plan computationnel
Générer une vidéo 1080p à 32 images par seconde pendant 15 secondes est coûteux en termes de calcul. Vous ne pouvez pas simplement agrandir le processus de diffusion et espérer des temps d'inférence réalisables. Au lieu de cela, SkyReels-V4 utilise une stratégie en trois étapes qui maintient la qualité là où cela compte le plus tout en réduisant le coût computationnel ailleurs.
...