Este é um resumo em Plain English Papers de um artigo científico chamado <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing</a> model. Se você gosta desse tipo de análise, junte-se ao <a href=" ou siga-nos no <a href=" <h2>O problema da geração de vídeo hoje</h2> <p>Por anos, a geração de vídeo e a geração de áudio foram estranhas em laboratórios separados. Os modelos de vídeo atuais se tornaram genuinamente impressionantes, capazes de sintetizar cenas fotorrealistas com movimentos complexos e detalhes ricos. Ainda assim, eles operam em um vácuo, tratando o áudio como decoração opcional ou ignorando-o completamente.</p> <p>Isso cria um problema concreto: desalinhamento temporal. Quando você gera um vídeo da chuva batendo em um telhado de metal, o áudio (se é que existe) foi criado de forma independente. Uma porta batendo no vídeo não sincroniza com uma porta batendo no áudio. O diálogo de um personagem não combina com os movimentos dos lábios dele. O resultado parece estranho, como um filme dublado onde algo está sempre um pouco errado.</p> <p>A questão mais profunda é arquitetônica. A maioria dos modelos multimodais trata o texto como o único maestro, com todo o resto servindo para ele. Mas na produção cinematográfica real, vídeo e áudio se informam constantemente. Uma tomada apertada da chuva não é só sobre pixels, é sobre acústica. Uma cena de mercado lotada precisa de áudio que diga quais conversas importam. O diretor de fotografia e o engenheiro de som precisam colaborar, não trabalhar em sequência.</p> <h2>Por que o som precisa nascer com visão, e não ser adicionado depois</h2> <p>Imagine dois músicos em uma sala escura, incapazes de se ver, mas ouvindo atentamente. Um toca cordas, o outro toca percussão. Eles compartilham um maestro (o prompt do texto) e uma gravação de referência (a descrição da cena). Eles não conseguem se ver, mas se ouvem fazendo música e permanecem no tempo. Esse é o insight arquitetônico do SkyReels-V4.</p> <p>O áudio não é gerado depois do vídeo aqui. Em vez disso, ambos os ramos geram em paralelo, condicionando-se mutuamente. O ramo de vídeo aprende que uma referência de áudio contém um cachorro latindo, então sintetiza o movimento que corresponde ao tempo e à energia desse latido. O ramo de áudio ouve que o vídeo contém um cachorro, então gera sons consistentes com a presença daquele animal. Isso é fundamentalmente diferente de outras abordagens que adicionam áudio ao vídeo como um pensamento tardio.</p> <p>Quando dois processos generativos compartilham a mesma compreensão de entrada, eles podem ser orquestrados. Eles não são modelos independentes entregues sequencialmente, são duas partes de um pensamento unificado.</p> <h2>Arquitetura: fluxos duplos com uma mente compartilhada</h2> <p>O SkyReels-V4 utiliza um <strong>Transformador de Difusão Multimodal de Duplo Fluxo (MMDiT),</strong> onde um ramo sintetiza vídeo e outro gera áudio, enquanto ambos se baseiam em uma base conceitual compartilhada. Veja como as peças se encaixam.</p> <p>O ramo de vídeo sintetiza quadros em um espaço latente aprendido usando difusão, aceitando um condicionamento visual rico: descrições em texto, imagens de referência, máscaras para inpainting, até mesmo clipes completos de vídeo. O ramo de áudio gera espectrogramas sonoros pelo mesmo processo de difusão, condicionado a referências de texto e áudio. Ambos os ramos são baseados em um codificador de texto baseado <strong>em Multimodal Large Language Model (MMLM</strong>) que entende conceitos visuais e também a linguagem. Quando você descreve uma "tempestade sobre um campo de trigo", este codificador captura tanto a riqueza visual quanto as expectativas sonoras embutidas nessa descrição.


Visão geral da arquitetura SkyReels-V4 mostrando ramos de geração de vídeo e áudio em fluxo duplo compartilhando um codificador multimodal.

A arquitetura de fluxo duplo com codificador multimodal compartilhado, onde ramos de vídeo e áudio são gerados simultaneamente enquanto são condicionados pela mesma compreensão do texto.

A informação flui do prompt de texto para o codificador compartilhado, se decompon em compreensão, e esse entendimento flui para ambos os ramos. Eles não esperam um pelo outro, mas são orquestrados pelo mesmo input conceitual.

Modelos de difusão são ideais para essa geração conjunta porque tanto o vídeo quanto o áudio se beneficiam de refinamento passo a passo. A cada etapa de difusão, o ramo de vídeo pode ser suavemente impulsionado pela estimativa atual do ramo de áudio, e vice-versa. É como dois músicos refinando sua performance em tempo real, cada um ouvindo e se ajustando ao outro.

Uma interface para geração, edição e inpainting

É aqui que a elegância arquitetônica se torna força prática. A maioria dos modelos de vídeo exige caminhos de código separados para "gerar do zero", "editar este vídeo" e "estender este clipe". SkyReels-V4 unifica todos esses sob um único mecanismo usando concatenação de canal.

O truque é enganadoramente simples. Canais de entrada diferentes podem ser preenchidos com diferentes conteúdos ou mascarados à esquerda:

  • Geração de texto para vídeo: Todos os canais de entrada estão vazios (mascarados), então o modelo gera tudo do zero.
  • Imagem-para-vídeo: Uma imagem inicial é incorporada em certos canais, outros permanecem vazios, e o modelo gera o vídeo que se segue.
  • Extensão de vídeo: Quadros de vídeo existentes preenchem alguns canais, outros são mascarados, e o modelo gera o que vem a seguir.
  • Inpainting: Um vídeo com regiões mascaradas é fornecido, os canais dessas regiões ficam vazios e o modelo preenche as lacunas de forma coerente.
  • Edição referenciada à visão: Tanto um vídeo para editar quanto uma imagem de referência mostrando o estilo desejado são incorporados como condicionamento, e o modelo edita de acordo.

Abordagens tradicionais exigem modelos ou procedimentos de treinamento diferentes para cada tarefa. O SkyReels-V4 aprende um processo unificado de difusão. Durante o treinamento, ele vê combinações aleatórias de canais preenchidos e vazios e aprende a pintar inteligentemente. Esse tratamento unificado se estende naturalmente a cenários complexos onde múltiplas referências guiam a geração, algo crucial para a produção em nível cinematográfico.

Tornando a resolução de cinema computacionalmente viável

Gerar vídeo 1080p a 32 quadros por segundo durante 15 segundos é computacionalmente caro. Você não pode simplesmente aumentar o processo de difusão e esperar por tempos de inferência viáveis. Em vez disso, o SkyReels-V4 utiliza uma estratégia de três estágios que mantém a qualidade onde mais importa, ao mesmo tempo em que reduz o custo computacional em outras áreas.

...