
Este es un resumen en inglés sencillo de un artículo de investigación llamado <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Si te gustan este tipo de análisis, únete <a href=" o síguenos en <a href=" <h2>El problema con la generación de video hoy en día</h2> <p>Durante años, la generación de video y la generación de audio han sido extrañas en laboratorios separados. Los modelos de video actuales se han vuelto realmente impresionantes, capaces de sintetizar escenas fotorrealistas con movimiento complejo y rico detalle. Sin embargo, operan en un vacío, tratando el audio como una decoración opcional o ignorándolo por completo.</p> <p>Esto crea un problema concreto: desalineación temporal. Cuando generas un video de la lluvia golpeando un techo de metal, el audio (si es que está presente) se creó de forma independiente. Un portazo en el video no se sincroniza con un portazo en el audio. El diálogo de un personaje no coincide con sus movimientos labiales. El resultado se siente extraño, como una película doblada donde algo siempre está ligeramente fuera de lugar.</p> <p>El problema más profundo es arquitectónico. La mayoría de los modelos multimodales tratan el texto como el único conductor, con todo lo demás sirviendo a él. Pero en la producción cinematográfica real, el video y el audio se informan mutuamente de forma constante. Un plano cerrado de la lluvia no se trata solo de píxeles, se trata de acústica. Una escena de mercado concurrido necesita un audio que te diga qué conversaciones importan. El director de fotografía y el ingeniero de sonido necesitan colaborar, no trabajar secuencialmente.</p> <h2>Por qué el sonido necesita nacer con la visión, no añadirse después</h2> <p>Imagina a dos músicos en una habitación oscurecida, incapaces de verse entre sí pero escuchando atentamente. Uno toca cuerdas, el otro toca percusión. Comparten un conductor (el aviso de texto) y una grabación de referencia (la descripción de la escena). No pueden verse, pero se escuchan haciendo música y se mantienen en tiempo. Esa es la idea arquitectónica de SkyReels-V4.</p> <p>El audio no se genera después del video aquí. En cambio, ambas ramas se generan en paralelo, condicionándose mutuamente. La rama de video aprende que una referencia de audio contiene un perro ladrando, por lo que sintetiza un movimiento que coincide con el tiempo y la energía de ese ladrido. La rama de audio escucha que el video contiene un perro, por lo que genera sonidos consistentes con la presencia de ese animal. Esto es fundamentalmente diferente de otros enfoques que añaden audio al video como un pensamiento posterior.</p> <p>Cuando dos procesos generativos comparten la misma comprensión de entrada, pueden ser orquestados. No son modelos independientes entregados secuencialmente, son dos partes de un único pensamiento unificado.</p> <h2>Arquitectura: flujos duales con una mente compartida</h2> <p>SkyReels-V4 utiliza un <strong>Transformador de Difusión Multimodal de Flujo Dual (MMDiT)</strong> donde una rama sintetiza video y otra genera audio, mientras ambas se nutren de una base conceptual compartida. Así es como encajan las piezas.</p> <p>La rama de video sintetiza fotogramas en un espacio latente aprendido utilizando difusión, aceptando un rico acondicionamiento visual: descripciones de texto, imágenes de referencia, máscaras para inpainting, incluso clips de video completos. La rama de audio genera espectrogramas de sonido a través del mismo proceso de difusión, condicionado por referencias de texto y audio. Ambas ramas están fundamentadas en un <strong>Modelo de Lenguaje Grande Multimodal (MMLM)</strong> basado en un codificador de texto que entiende conceptos visuales así como el lenguaje. Cuando describes una "tormenta eléctrica sobre un campo de trigo", este codificador captura tanto la riqueza visual como las expectativas sonoras incrustadas en esa descripción.
Descripción general de la arquitectura de SkyReels-V4 que muestra ramas de generación de video y audio de flujo dual compartiendo un codificador multimodal.
La arquitectura de flujo dual con codificador multimodal compartido, donde las ramas de video y audio se generan simultáneamente mientras son condicionadas por la misma comprensión del texto.
La información fluye desde el aviso de texto hacia el codificador compartido, se descompone en comprensión, y esa comprensión fluye hacia ambas ramas. No esperan el uno al otro, pero están orquestados por la misma entrada conceptual.
Los modelos de difusión son ideales para esta generación conjunta porque tanto el video como el audio se benefician de un refinamiento paso a paso. En cada paso de difusión, la rama de video puede ser suavemente empujada por la estimación actual de la rama de audio, y viceversa. Es como si dos músicos refinaran su actuación en tiempo real, cada uno escuchando y ajustándose al otro.
Una interfaz para generación, edición e inpainting
Aquí es donde la elegancia arquitectónica se convierte en poder práctico. La mayoría de los modelos de video requieren caminos de código separados para "generar desde cero", "editar este video" y "extender este clip". SkyReels-V4 unifica todo esto bajo un único mecanismo utilizando concatenación de canales.
El truco es engañosamente simple. Diferentes canales de entrada pueden llenarse con contenido diferente, o dejarse enmascarados:
- Generación de texto a video: Todos los canales de entrada están vacíos (enmascarados), por lo que el modelo genera todo desde cero.
- Imagen a video: Una imagen inicial se incrusta en ciertos canales, otros permanecen vacíos, y el modelo genera el video que sigue.
- Extensión de video: Fotogramas de video existentes llenan algunos canales, otros están enmascarados, y el modelo genera lo que viene a continuación.
- Inpainting: Se proporciona un video con regiones enmascaradas, esos canales de regiones están vacíos, y el modelo llena los huecos de manera coherente.
- Edición referenciada por visión: Tanto un video para editar como una imagen de referencia que muestra el estilo deseado se incrustan como acondicionamiento, y el modelo edita en consecuencia.
Los enfoques tradicionales requieren diferentes modelos o procedimientos de entrenamiento para cada tarea. SkyReels-V4 aprende un único proceso de difusión unificado. Durante el entrenamiento, ve combinaciones aleatorias de canales llenos y vacíos y aprende a inpaint de manera inteligente. Este tratamiento unificado se extiende naturalmente a escenarios complejos donde múltiples referencias guían la generación, algo crucial para la producción a nivel cinematográfico.
Haciendo que la resolución cinematográfica sea computacionalmente factible
Generar video 1080p a 32 fotogramas por segundo durante 15 segundos es computacionalmente costoso. No puedes simplemente hacer que el proceso de difusión sea más grande y esperar tiempos de inferencia factibles. En cambio, SkyReels-V4 utiliza una estrategia de tres etapas que mantiene la calidad donde más importa mientras reduce el costo computacional en otros lugares.
La primera etapa genera todo el video a una resolución más baja utilizando el MMDiT de flujo dual. Esto es computacionalmente eficiente y captura la coherencia temporal completa, la composición general y la sincronización de audio y video. El modelo ya resuelve el problema difícil: cómo debería verse la escena y cómo deberían alinearse el sonido y la visión.
La segunda etapa identifica fotogramas críticos, puntos de cambio visual o de audio máximo, momentos narrativos clave, y regenera solo esos fotogramas a resolución completa de 1080p. Aquí es donde más importan el detalle y la fidelidad.
La tercera etapa aplica escalado inteligente e interpolación. Los fotogramas de baja resolución pasan a través de un modelo de superresolución para escalar a 1080p mientras preservan el contenido. Los fotogramas clave y sus vecinos escalados pasan a través de un modelo de interpolación de fotogramas para generar fotogramas intermedios, manteniendo un movimiento suave y coherencia temporal.
Pipeline que muestra la generación de baja resolución seguida de escalado de fotogramas clave e interpolación de fotogramas.
El pipeline de tres etapas: generación de secuencia completa de baja resolución (F), selección y escalado de fotogramas clave (KF), e interpolación de fotogramas para mantener un movimiento suave.
Este enfoque funciona porque el modelo de baja resolución ya ha aprendido las restricciones difíciles. El escalado y la interpolación son problemas mucho más simples y aprendibles. No estás pidiendo al modelo que invente detalles desde cero, le estás pidiendo que complete plausiblemente un patrón que ya entiende. La huella de memoria y el tiempo de inferencia se reducen drásticamente en comparación con generar todo a plena resolución, haciendo que la salida de calidad cinematográfica sea factible.
Cómo se desempeña realmente
La arquitectura solo importa si entrega resultados. El artículo posiciona a SkyReels-V4 dentro de un paisaje competitivo en lugar de reclamar una dominancia obvia, lo que paradójicamente fortalece la credibilidad.
Clasificación de la tabla de líderes de Análisis Artificial de Texto a Video con Audio mostrando la clasificación de SkyReels-V4.
SkyReels-V4 ocupa el tercer lugar en la tabla de líderes de Análisis Artificial de Texto a Video con Audio, compitiendo junto a Veo 3.1, Sora-2 y otros modelos de última generación.
En la tabla de líderes de Análisis Artificial, SkyReels-V4 ocupa el tercer lugar en general, compitiendo contra modelos como Veo 3.1, Sora-2 y Wan 2.6. Esto lo posiciona en un nivel de modelos genuinamente competitivos en lugar de reclamar el ganador obvio.
Métricas de calidad absolutas a través de múltiples dimensiones (calidad visual, coherencia temporal, sincronización de audio y video) establecen líneas base de lo que se considera un buen rendimiento:
Resultados de puntuación absoluta en una escala de Likert de 5 puntos comparando SkyReels V4 contra líneas base.
Métricas de calidad absolutas muestran que SkyReels-V4 se desempeña consistentemente bien en dimensiones que incluyen calidad visual, coherencia de movimiento y sincronización de audio y video.
Las comparaciones directas revelan matices. Contra Kling 2.6, el rendimiento es comparable con algunos casos extremos favoreciendo a cada uno. Contra Veo 3.1, la competencia es cercana, sugiriendo que estos modelos operan en un nivel diferente. Contra Seedance 1.5 Pro y Wan 2.6, la comparación de calidad muestra que SkyReels-V4 se encuentra consistentemente en el rango de "Bueno".
Comparación de calidad general (calificaciones Buenas/Iguales/Malas) muestra que SkyReels-V4 es competitivo en todo el campo.
La comparación general de calidad (calificaciones Buenas/Iguales/Malas) muestra que SkyReels-V4 es competitivo en todo el campo.
Comparación de SkyReels V4 vs. Kling 2.6.
La comparación con Kling 2.6 muestra un rendimiento competitivo con fortalezas complementarias.
Comparación de SkyReels V4 vs. Seedance 1.5 Pro.
La comparación con Seedance 1.5 Pro demuestra calidad consistente a través de criterios de evaluación.
Comparación de SkyReels V4 vs. Veo 3.1.
La comparación con Veo 3.1 muestra una competencia cercana entre dos modelos que operan en la frontera.
Comparación de SkyReels V4 vs. Wan 2.6.
La comparación con Wan 2.6 indica la ventaja de rendimiento consistente de SkyReels-V4.
La arquitectura realmente brilla donde fue diseñada: escenarios con un rico acondicionamiento. Los casos con múltiples referencias de imagen, referencias de audio y máscaras complejas se benefician enormemente de la interfaz multimodal unificada. Los avisos más simples pueden no mostrar tanto beneficio, pero la producción a nivel cinematográfico, que por naturaleza implica referencias ricas y orientación compleja, es donde este modelo sobresale.
Ejemplo que demuestra múltiples imágenes y referencias de audio guiando la generación.
El acondicionamiento complejo con múltiples referencias de imagen y audio demuestra la flexibilidad del modelo para manejar entradas multimodales ricas.
Este posicionamiento competitivo es honesto. SkyReels-V4 no se presenta como el ganador obvio, lo que hace que las fortalezas reales sean más creíbles. Sobresale en nichos específicos (acondicionamiento multimodal, sincronización de audio y video, edición unificada) mientras es parte de un paisaje donde múltiples modelos empujan la frontera hacia adelante.
Qué hace que este enfoque sea importante
La verdadera innovación en SkyReels-V4 no es ningún componente único. Es la visión de que la generación de video y audio debe estar unificada, que el acondicionamiento multimodal rico debe sentirse natural, y que la eficiencia no debe requerir sacrificar la calidad a nivel cinematográfico.
Al construir una arquitectura de flujo dual con una base conceptual compartida, al unificar la generación y la edición bajo una sola interfaz, y al aplicar estratégicamente la superresolución y la interpolación, el modelo demuestra algo que se siente inevitable en retrospectiva pero que requirió una verdadera visión para ejecutar.
Trabajos anteriores como <a href=" establecieron la base de generación de video, mientras que <a href=" Audio mostró la promesa de la síntesis visual condicionada por audio.
Este es un resumen en inglés sencillo de un artículo de investigación llamado <a href=" A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation</a>. Si te gustan este tipo de análisis, únete <a href=" o síguenos en <a href=" <h2>El intercambio imposible</h2> <p>Durante años, cualquier persona que construyera un sistema de recomendación enfrentó un dilema genuino. Las secuencias de comportamiento del usuario pueden extenderse a miles o decenas de miles de interacciones. Dar sentido a esa historia requiere responder a una pregunta engañosamente simple: dado todo lo que un usuario ha hecho antes, ¿qué deberíamos recomendar a continuación?</p> <p>El enfoque estándar utiliza atención softmax, un mecanismo que calcula comparaciones detalladas entre el momento actual y cada interacción pasada. Matemáticamente es elegante. Funciona maravillosamente. Pero el costo computacional escala cuadráticamente con la longitud de la secuencia. Con 10,000 interacciones, estás realizando aproximadamente 100 millones de comparaciones solo para hacer una recomendación. Escala eso a millones de usuarios y miles de recomendaciones por segundo, y tus costos de infraestructura se vuelven prohibitivos.</p> <p>Así que los practicantes comprometen. Se vuelven hacia mecanismos de atención lineales, que reducen la complejidad computacional de cuadrática a lineal. Las matemáticas son ingeniosas, y las ganancias de velocidad son reales. El problema: esa velocidad tiene un costo. Estos mecanismos mantienen un "estado" en ejecución que se actualiza con cada nueva interacción, pero este estado tiene una capacidad limitada. Es como un bibliotecario que solo puede anotar patrones generales en un pequeño portapapeles en lugar de consultar registros completos. Pierdes la precisión necesaria para reconocer secuencias de comportamiento específicas que indican la intención del usuario.
Este intercambio ha definido el campo. Los métodos eficientes sacrifican precisión. Los métodos precisos sacrifican velocidad. Y los usuarios que más sufren son aquellos con secuencias ultra-largas, los usuarios avanzados y los que interactúan mucho, que tienen el comportamiento más interesante del que aprender.
Los investigadores detrás de HyTRec observaron esto y se hicieron una pregunta diferente: ¿Qué pasaría si esto no fuera en realidad un solo problema que requiere una sola solución?
Cómo piensan realmente los usuarios
La idea comienza con una simple observación sobre cómo funcionan realmente las preferencias de los usuarios. Tienes dos tipos de señales de preferencia fundamentalmente diferentes, y operan en escalas de tiempo completamente diferentes.
Tus preferencias estables a largo plazo provienen de una historia profunda. Si has hecho clic en gadgets tecnológicos 500 veces en dos años, eso es una fuerte evidencia de que te gusta la tecnología. Esta preferencia no fluctúa mucho de semana a semana. Importante, no necesitas cada una de esas 500 interacciones para entender el patrón. Podrías aprender lo mismo de 50 de ellas, o incluso de un resumen estadístico aproximado. Ser aproximado sobre esta señal no pierde casi nada.
Tus picos de intención a corto plazo provienen de un comportamiento reciente. Si has hecho clic en tres abrigos de invierno en las últimas dos horas, estás comprando abrigos en este momento. Esta señal es frágil. Es fácil de perder si la promedias con miles de otras interacciones de hace meses. Pero es increíblemente predictiva de lo que harás en los próximos cinco minutos.
Estas no son solo diferentes en grado, son diferentes en tipo. Una es estable y puede tolerar aproximaciones. La otra es volátil y requiere precisión. Sin embargo, los métodos existentes intentan manejar ambas con un solo mecanismo de atención, inevitablemente optimizando una a expensas de la otra.
La solución híbrida
El movimiento elegante es dejar de intentar construir un mecanismo que lo haga todo. En su lugar, divide el trabajo de una manera que refleje cómo los usuarios realmente navegan.
La arquitectura ejecuta dos caminos paralelos. En el primero, toda tu secuencia histórica, incluso si contiene 9,000 interacciones de los últimos seis meses, pasa por una rama de atención lineal. Esta rama no necesita ser precisa. Está construyendo una comprensión amplia de tu categoría de gusto general. Debido a que utiliza atención lineal, se completa en un tiempo proporcional a la longitud de la secuencia, no al cuadrado de la longitud de la secuencia. Es rápida.
En el segundo camino, tus interacciones recientes, quizás 1,000 de las últimas dos semanas, pasan por una rama de atención softmax. Esta rama puede permitirse ser costosa porque opera en una pequeña porción de datos. Produce representaciones precisas de lo que podrías querer en este momento. Estás haciendo cálculos costosos, pero en una pequeña ventana.
Cada rama produce una representación de "¿qué deberíamos recomendar?" Luego, la arquitectura las combina inteligentemente. Has restaurado la precisión de la atención softmax mientras mantienes la velocidad de la atención lineal, porque cada una ahora opera en su dominio adecuado.
HyTRec divide largas secuencias de comportamiento del usuario entre dos mecanismos de atención especializados, permitiendo que las preferencias estables y los picos de intención recientes se manejen de forma independiente.
Esto no es un ajuste menor. La complejidad computacional sigue siendo lineal en la longitud de la secuencia mientras opera en secuencias 10 veces más largas de lo que los enfoques anteriores podían manejar de manera eficiente. Pero hay un truco escondido en la arquitectura.
Hacer que las señales recientes importen
El desafío con un sistema híbrido es que la rama de atención lineal ha visto miles de interacciones. La rama softmax ha visto cientos. Por volumen, la señal de la rama lineal es más fuerte. Pero en la recomendación, la recencia importa más que el volumen. Un clic de hoy te dice más sobre lo que alguien quiere que un clic de hace seis meses.
Si tratas ambas ramas por igual, los datos obsoletos ahogan los datos frescos. Has resuelto el problema computacional pero creado un problema de capacidad de respuesta.
La solución se llama la Red Delta Consciente del Tiempo, o TADN. El mecanismo hace algo sencillo: pondera dinámicamente las señales de comportamiento frescas mientras suprime el ruido histórico.
Imagina un mecanismo de compuerta que pregunta a cada parte de la secuencia: "¿Cuántos años tienes?" Las interacciones frescas obtienen pesos más altos. Las interacciones antiguas obtienen pesos más bajos. Esto no sucede en un horario fijo, se aprende de los datos. La red descubre patrones como: "Para este usuario, los patrones de comportamiento cambian cada pocos días, así que las interacciones de más de una semana deberían ponderarse a la mitad de su fuerza."
Sin TADN, el sistema híbrido haría recomendaciones cada vez más obsoletas a medida que las preferencias de un usuario cambian. Con él, el sistema se mantiene receptivo al cambio. Las señales recientes tienen naturalmente más influencia sobre las recomendaciones, pero la red aprende exactamente cuánta influencia tiene sentido para cada usuario y tipo de interacción.
Resultados en el mundo real
Los investigadores probaron HyTRec en conjuntos de datos masivos con secuencias de comportamiento de usuarios reales que se extienden a decenas de miles de interacciones por usuario. No son datos académicos limpios, es desorden real a escala de producción.
En velocidad, los resultados importan. HyTRec mantiene una complejidad de inferencia lineal. Duplicar la longitud de la secuencia, y el tiempo de inferencia se duplica aproximadamente. No se cuadruplica como lo haría la atención softmax. Con secuencias de longitud 10,000, esta diferencia determina si puedes recomendar en 50 milisegundos o 5 segundos. En una plataforma que atiende a millones de usuarios, esa diferencia es la línea entre lo factible y lo imposible.
Comparación de rendimiento de entrenamiento a través de longitudes de secuencia
HyTRec mantiene un rendimiento de entrenamiento estable a medida que aumenta la longitud de la secuencia, mientras que los métodos basados en atención softmax pura ven desaceleraciones dramáticas en secuencias más largas.
En precisión, las mejoras son sustanciales. Para los usuarios con secuencias ultra-largas, HyTRec entregó más del 8% de mejora en la Tasa de Éxito. La Tasa de Éxito mide si recomendar 10 artículos conduce a al menos un clic. Una mejora del 8% significa que el 8% más de tus recomendaciones son cosas que los usuarios realmente quieren. Para una plataforma con millones de usuarios, eso no es una métrica académica. Eso es compromiso real.
Las mejoras no son uniformes entre todos los usuarios. Los usuarios con historias más cortas no ven las mismas ganancias. Eso es esperado, y en realidad es informativo. La arquitectura híbrida ayuda precisamente donde el intercambio velocidad-precisión fue más doloroso.
Eligiendo tu equilibrio velocidad-precisión
Los sistemas reales no son monolíticos. Al implementar HyTRec, controlas cuántas interacciones van a la rama lineal frente a la rama softmax. Envía 9,000 interacciones recientes a softmax y 1,000 antiguas a lineal, y favoreces la precisión. Cambia esa proporción y favoreces la velocidad.
Diferentes empresas enfrentan diferentes restricciones. Una plataforma con amplia capacidad de GPU podría empujar más computación hacia softmax. Un sistema móvil primero con presupuestos de latencia estrictos podría empujar más hacia lineal. El valor de esta arquitectura es que te permite hacer esta elección explícitamente, con una clara comprensión de los intercambios.
Rendimiento a través de diferentes proporciones de atención híbrida
A medida que la proporción de interacciones manejadas por atención softmax aumenta, la calidad de la recomendación mejora gradualmente mientras que la velocidad de inferencia disminuye. Los equipos pueden seleccionar el punto que coincida con sus restricciones de infraestructura.
Los investigadores también exploraron cómo el número de redes expertas y cabezales de atención afectan el rendimiento. Estos son palancas de ajuste más finas. La conclusión práctica es que HyTRec no es una caja negra fija con una configuración correcta. Es un marco donde diferentes partes pueden ser optimizadas para diferentes requisitos.
Efecto del número de redes expertas en métricas de rendimiento
El número de redes expertas especializadas puede ajustarse según la capacidad del modelo y los requisitos de rendimiento.
Efecto del número de cabezales de atención en métricas de rendimiento
El número de cabezales de atención proporciona otra dimensión para ajustar el intercambio velocidad-precisión para coincidir con necesidades específicas de implementación.
Esta flexibilidad importa porque los sistemas de recomendación operan en diferentes entornos. Una plataforma de contenido donde los usuarios tienen redes rápidas enfrenta diferentes restricciones que un sistema optimizado para regiones en desarrollo con ancho de banda limitado. HyTRec proporciona a los equipos los datos para tomar decisiones informadas sobre su configuración.
Por qué este patrón importa
La lección más amplia se extiende más allá de los sistemas de recomendación. Siempre que te encuentres atascado eligiendo entre enfoques competidores, la pregunta correcta es: ¿están realmente resolviendo el mismo problema, o están resolviendo diferentes subproblemas que merecen diferentes soluciones?
HyTRec no inventó la atención lineal o softmax. Reconoció que las preferencias de los usuarios son genuinamente multi-temporales, y que diferentes mecanismos de atención podrían ser especialistas en lugar de generalistas. Este patrón de descomposición, donde los problemas complejos se dividen en partes y cada parte recibe una solución adaptada a sus características, aparece en todo el aprendizaje automático moderno.
La validación a escala industrial también importa. Esto no es elegancia teórica. El sistema maneja secuencias 10 veces más largas de lo que los enfoques eficientes anteriores podían gestionar, en datos de usuarios reales, en contextos de producción. Ese es el tipo de trabajo que determina lo que realmente es posible construir en el mundo real.
Publicación original: <a href=" en - #ai #hytrec
