Este es un resumen en inglés sencillo de un artículo de investigación llamado <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Si te gustan este tipo de análisis, únete <a href=" o síguenos en <a href=" <h2>El problema con la generación de video hoy en día</h2> <p>Durante años, la generación de video y la generación de audio han sido extrañas en laboratorios separados. Los modelos de video actuales se han vuelto realmente impresionantes, capaces de sintetizar escenas fotorrealistas con movimiento complejo y rico detalle. Sin embargo, operan en un vacío, tratando el audio como una decoración opcional o ignorándolo por completo.</p> <p>Esto crea un problema concreto: desalineación temporal. Cuando generas un video de la lluvia golpeando un techo de metal, el audio (si es que está presente) se creó de forma independiente. Un portazo en el video no se sincroniza con un portazo en el audio. El diálogo de un personaje no coincide con sus movimientos labiales. El resultado se siente extraño, como una película doblada donde algo siempre está ligeramente fuera de lugar.</p> <p>El problema más profundo es arquitectónico. La mayoría de los modelos multimodales tratan el texto como el único conductor, con todo lo demás sirviendo a él. Pero en la producción cinematográfica real, el video y el audio se informan mutuamente de forma constante. Un plano cerrado de la lluvia no se trata solo de píxeles, se trata de acústica. Una escena de mercado concurrido necesita un audio que te diga qué conversaciones importan. El director de fotografía y el ingeniero de sonido necesitan colaborar, no trabajar secuencialmente.</p> <h2>Por qué el sonido necesita nacer con la visión, no añadirse después</h2> <p>Imagina a dos músicos en una habitación oscurecida, incapaces de verse entre sí pero escuchando atentamente. Uno toca cuerdas, el otro toca percusión. Comparten un conductor (el aviso de texto) y una grabación de referencia (la descripción de la escena). No pueden verse, pero se escuchan haciendo música y se mantienen en tiempo. Esa es la idea arquitectónica de SkyReels-V4.</p> <p>El audio no se genera después del video aquí. En cambio, ambas ramas se generan en paralelo, condicionándose mutuamente. La rama de video aprende que una referencia de audio contiene un perro ladrando, por lo que sintetiza un movimiento que coincide con el tiempo y la energía de ese ladrido. La rama de audio escucha que el video contiene un perro, por lo que genera sonidos consistentes con la presencia de ese animal. Esto es fundamentalmente diferente de otros enfoques que añaden audio al video como un pensamiento posterior.</p> <p>Cuando dos procesos generativos comparten la misma comprensión de entrada, pueden ser orquestados. No son modelos independientes entregados secuencialmente, son dos partes de un único pensamiento unificado.</p> <h2>Arquitectura: flujos duales con una mente compartida</h2> <p>SkyReels-V4 utiliza un <strong>Transformador de Difusión Multimodal de Flujo Dual (MMDiT)</strong> donde una rama sintetiza video y otra genera audio, mientras ambas se nutren de una base conceptual compartida. Así es como encajan las piezas.</p> <p>La rama de video sintetiza fotogramas en un espacio latente aprendido utilizando difusión, aceptando un rico acondicionamiento visual: descripciones de texto, imágenes de referencia, máscaras para inpainting, incluso clips de video completos. La rama de audio genera espectrogramas de sonido a través del mismo proceso de difusión, condicionado por referencias de texto y audio. Ambas ramas están fundamentadas en un <strong>Modelo de Lenguaje Grande Multimodal (MMLM)</strong> basado en un codificador de texto que entiende conceptos visuales así como el lenguaje. Cuando describes una "tormenta eléctrica sobre un campo de trigo", este codificador captura tanto la riqueza visual como las expectativas sonoras incrustadas en esa descripción.
Descripción general de la arquitectura de SkyReels-V4 que muestra ramas de generación de video y audio de flujo dual compartiendo un codificador multimodal.
La arquitectura de flujo dual con codificador multimodal compartido, donde las ramas de video y audio se generan simultáneamente mientras son condicionadas por la misma comprensión del texto.
La información fluye desde el aviso de texto hacia el codificador compartido, se descompone en comprensión, y esa comprensión fluye hacia ambas ramas. No esperan el uno al otro, pero están orquestados por la misma entrada conceptual.
Los modelos de difusión son ideales para esta generación conjunta porque tanto el video como el audio se benefician de un refinamiento paso a paso. En cada paso de difusión, la rama de video puede ser suavemente empujada por la estimación actual de la rama de audio, y viceversa. Es como si dos músicos refinaran su actuación en tiempo real, cada uno escuchando y ajustándose al otro.
Una interfaz para generación, edición e inpainting
Aquí es donde la elegancia arquitectónica se convierte en poder práctico. La mayoría de los modelos de video requieren caminos de código separados para "generar desde cero", "editar este video" y "extender este clip". SkyReels-V4 unifica todo esto bajo un único mecanismo utilizando concatenación de canales.
El truco es engañosamente simple. Diferentes canales de entrada pueden llenarse con contenido diferente, o dejarse enmascarados:
- Generación de texto a video: Todos los canales de entrada están vacíos (enmascarados), por lo que el modelo genera todo desde cero.
- Imagen a video: Una imagen inicial se incrusta en ciertos canales, otros permanecen vacíos, y el modelo genera el video que sigue.
- Extensión de video: Fotogramas de video existentes llenan algunos canales, otros están enmascarados, y el modelo genera lo que viene a continuación.
- Inpainting: Se proporciona un video con regiones enmascaradas, esos canales de regiones están vacíos, y el modelo llena los huecos de manera coherente.
- Edición referenciada por visión: Tanto un video para editar como una imagen de referencia que muestra el estilo deseado se incrustan como acondicionamiento, y el modelo edita en consecuencia.
Los enfoques tradicionales requieren diferentes modelos o procedimientos de entrenamiento para cada tarea. SkyReels-V4 aprende un único proceso de difusión unificado. Durante el entrenamiento, ve combinaciones aleatorias de canales llenos y vacíos y aprende a inpaint de manera inteligente. Este tratamiento unificado se extiende naturalmente a escenarios complejos donde múltiples referencias guían la generación, algo crucial para la producción a nivel cinematográfico.
Haciendo que la resolución cinematográfica sea computacionalmente factible
Generar video 1080p a 32 fotogramas por segundo durante 15 segundos es computacionalmente costoso. No puedes simplemente hacer que el proceso de difusión sea más grande y esperar tiempos de inferencia factibles. En cambio, SkyReels-V4 utiliza una estrategia de tres etapas que mantiene la calidad donde más importa mientras reduce el costo computacional en otros lugares.
...