Este é um resumo em inglês simples de um artigo de pesquisa chamado <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Se você gosta desse tipo de análise, junte-se <a href=" ou siga-nos em <a href=" <h2>O problema com a geração de vídeo hoje</h2> <p>Durante anos, a geração de vídeo e a geração de áudio foram estranhas em laboratórios separados. Os modelos de vídeo atuais tornaram-se genuinamente impressionantes, capazes de sintetizar cenas fotorrealistas com movimento complexo e ricos detalhes. No entanto, eles operam em um vácuo, tratando o áudio como uma decoração opcional ou ignorando-o completamente.</p> <p>Isso cria um problema concreto: desalinhamento temporal. Quando você gera um vídeo de chuva batendo em um telhado de metal, o áudio (se presente) foi criado de forma independente. Um estrondo de porta no vídeo não se sincroniza com um estrondo de porta no áudio. O diálogo de um personagem não corresponde aos movimentos labiais. O resultado parece estranho, como um filme dublado onde algo está sempre ligeiramente fora.</p> <p>O problema mais profundo é arquitetônico. A maioria dos modelos multimodais trata o texto como o único condutor, com tudo o mais servindo a ele. Mas na produção cinematográfica real, vídeo e áudio se informam mutuamente o tempo todo. Um close de chuva não se trata apenas de pixels, mas de acústica. Uma cena de mercado lotado precisa de áudio que te diga quais conversas importam. O cinegrafista e o engenheiro de som precisam colaborar, não trabalhar sequencialmente.</p> <h2>Por que o som precisa nascer com a visão, e não ser adicionado depois</h2> <p>Imagine dois músicos em uma sala escura, incapazes de se ver, mas ouvindo atentamente. Um toca cordas, o outro toca percussão. Eles compartilham um condutor (o prompt de texto) e uma gravação de referência (a descrição da cena). Eles não podem se ver, mas ouvem a si mesmos fazendo música e permanecem no tempo. Essa é a percepção arquitetônica do SkyReels-V4.</p> <p>O áudio não é gerado após o vídeo aqui. Em vez disso, ambos os ramos geram em paralelo, condicionando-se mutuamente. O ramo de vídeo aprende que uma referência de áudio contém um cachorro latindo, então sintetiza um movimento que corresponde ao tempo e à energia daquele latido. O ramo de áudio ouve que o vídeo contém um cachorro, então gera sons consistentes com a presença daquele animal. Isso é fundamentalmente diferente de outras abordagens que adicionam áudio ao vídeo como um pensamento posterior.</p> <p>Quando dois processos generativos compartilham a mesma compreensão de entrada, eles podem ser orquestrados. Eles não são modelos independentes entregues sequencialmente, são duas partes de um único pensamento unificado.</p> <h2>Arquitetura: fluxos duais com uma mente compartilhada</h2> <p>O SkyReels-V4 usa um <strong>Transformador de Difusão Multimodal de Fluxo Duplo (MMDiT)</strong> onde um ramo sintetiza vídeo e outro gera áudio, enquanto ambos se baseiam em uma fundação conceitual compartilhada. Veja como as peças se encaixam.</p> <p>O ramo de vídeo sintetiza quadros em um espaço latente aprendido usando difusão, aceitando condicionamento visual rico: descrições de texto, imagens de referência, máscaras para inpainting, até clipes de vídeo completos. O ramo de áudio gera espectrogramas de som através do mesmo processo de difusão, condicionado por referências de texto e áudio. Ambos os ramos estão fundamentados em um <strong>Modelo de Linguagem Grande Multimodal (MMLM)</strong> baseado em um codificador de texto que entende conceitos visuais tão bem quanto a linguagem. Quando você descreve uma "tempestade de trovão sobre um campo de trigo", esse codificador captura tanto a riqueza visual quanto as expectativas sonoras embutidas nessa descrição.


Visão geral da arquitetura do SkyReels-V4 mostrando ramos de geração de vídeo e áudio de fluxo duplo compartilhando um codificador multimodal.

A arquitetura de fluxo duplo com codificador multimodal compartilhado, onde os ramos de vídeo e áudio geram simultaneamente enquanto são condicionados pela mesma compreensão de texto.

As informações fluem do prompt de texto para o codificador compartilhado, são decompostas em compreensão, e essa compreensão flui para ambos os ramos. Eles não esperam um pelo outro, mas são orquestrados pela mesma entrada conceitual.

Modelos de difusão são ideais para essa geração conjunta porque tanto vídeo quanto áudio se beneficiam de um refinamento passo a passo. A cada passo de difusão, o ramo de vídeo pode ser suavemente empurrado pela estimativa atual do ramo de áudio, e vice-versa. É como dois músicos refinando sua performance em tempo real, cada um ouvindo e ajustando-se ao outro.

Uma interface para geração, edição e inpainting

Aqui é onde a elegância arquitetônica se torna poder prático. A maioria dos modelos de vídeo requer caminhos de código separados para "gerar do zero", "editar este vídeo" e "estender este clipe". O SkyReels-V4 unifica todos esses sob um único mecanismo usando concatenação de canais.

O truque é enganosamente simples. Diferentes canais de entrada podem ser preenchidos com diferentes conteúdos ou deixados mascarados:

  • Geração de texto para vídeo: Todos os canais de entrada estão vazios (mascarados), então o modelo gera tudo do zero.
  • Imagem para vídeo: Uma imagem inicial é incorporada em certos canais, outros permanecem vazios, e o modelo gera o vídeo que se segue.
  • Extensão de vídeo: Quadros de vídeo existentes preenchem alguns canais, outros estão mascarados, e o modelo gera o que vem a seguir.
  • Inpainting: Um vídeo com regiões mascaradas é fornecido, os canais dessas regiões estão vazios, e o modelo preenche as lacunas de forma coerente.
  • Edição referenciada por visão: Tanto um vídeo para editar quanto uma imagem de referência mostrando o estilo desejado são incorporados como condicionamento, e o modelo edita de acordo.

Abordagens tradicionais requerem diferentes modelos ou procedimentos de treinamento para cada tarefa. O SkyReels-V4 aprende um único processo de difusão unificado. Durante o treinamento, ele vê combinações aleatórias de canais preenchidos e vazios e aprende a inpaint de forma inteligente. Esse tratamento unificado se estende naturalmente a cenários complexos onde múltiplas referências guiam a geração, algo crucial para produção em nível cinematográfico.

Tornando a resolução cinematográfica computacionalmente viável

Gerar vídeo em 1080p a 32 quadros por segundo por 15 segundos é computacionalmente caro. Você não pode simplesmente tornar o processo de difusão maior e esperar tempos de inferência viáveis. Em vez disso, o SkyReels-V4 usa uma estratégia de três estágios que mantém a qualidade onde mais importa, enquanto reduz o custo computacional em outros lugares.

...