
Este é um resumo em Plain English Papers de um artigo científico chamado <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing</a> model. Se você gosta desse tipo de análise, junte-se ao <a href=" ou siga-nos no <a href=" <h2>O problema da geração de vídeo hoje</h2> <p>Por anos, a geração de vídeo e a geração de áudio foram estranhas em laboratórios separados. Os modelos de vídeo atuais se tornaram genuinamente impressionantes, capazes de sintetizar cenas fotorrealistas com movimentos complexos e detalhes ricos. Ainda assim, eles operam em um vácuo, tratando o áudio como decoração opcional ou ignorando-o completamente.</p> <p>Isso cria um problema concreto: desalinhamento temporal. Quando você gera um vídeo da chuva batendo em um telhado de metal, o áudio (se é que existe) foi criado de forma independente. Uma porta batendo no vídeo não sincroniza com uma porta batendo no áudio. O diálogo de um personagem não combina com os movimentos dos lábios dele. O resultado parece estranho, como um filme dublado onde algo está sempre um pouco errado.</p> <p>A questão mais profunda é arquitetônica. A maioria dos modelos multimodais trata o texto como o único maestro, com todo o resto servindo para ele. Mas na produção cinematográfica real, vídeo e áudio se informam constantemente. Uma tomada apertada da chuva não é só sobre pixels, é sobre acústica. Uma cena de mercado lotada precisa de áudio que diga quais conversas importam. O diretor de fotografia e o engenheiro de som precisam colaborar, não trabalhar em sequência.</p> <h2>Por que o som precisa nascer com visão, e não ser adicionado depois</h2> <p>Imagine dois músicos em uma sala escura, incapazes de se ver, mas ouvindo atentamente. Um toca cordas, o outro toca percussão. Eles compartilham um maestro (o prompt do texto) e uma gravação de referência (a descrição da cena). Eles não conseguem se ver, mas se ouvem fazendo música e permanecem no tempo. Esse é o insight arquitetônico do SkyReels-V4.</p> <p>O áudio não é gerado depois do vídeo aqui. Em vez disso, ambos os ramos geram em paralelo, condicionando-se mutuamente. O ramo de vídeo aprende que uma referência de áudio contém um cachorro latindo, então sintetiza o movimento que corresponde ao tempo e à energia desse latido. O ramo de áudio ouve que o vídeo contém um cachorro, então gera sons consistentes com a presença daquele animal. Isso é fundamentalmente diferente de outras abordagens que adicionam áudio ao vídeo como um pensamento tardio.</p> <p>Quando dois processos generativos compartilham a mesma compreensão de entrada, eles podem ser orquestrados. Eles não são modelos independentes entregues sequencialmente, são duas partes de um pensamento unificado.</p> <h2>Arquitetura: fluxos duplos com uma mente compartilhada</h2> <p>O SkyReels-V4 utiliza um <strong>Transformador de Difusão Multimodal de Duplo Fluxo (MMDiT),</strong> onde um ramo sintetiza vídeo e outro gera áudio, enquanto ambos se baseiam em uma base conceitual compartilhada. Veja como as peças se encaixam.</p> <p>O ramo de vídeo sintetiza quadros em um espaço latente aprendido usando difusão, aceitando um condicionamento visual rico: descrições em texto, imagens de referência, máscaras para inpainting, até mesmo clipes completos de vídeo. O ramo de áudio gera espectrogramas sonoros pelo mesmo processo de difusão, condicionado a referências de texto e áudio. Ambos os ramos são baseados em um codificador de texto baseado <strong>em Multimodal Large Language Model (MMLM</strong>) que entende conceitos visuais e também a linguagem. Quando você descreve uma "tempestade sobre um campo de trigo", este codificador captura tanto a riqueza visual quanto as expectativas sonoras embutidas nessa descrição.
Visão geral da arquitetura SkyReels-V4 mostrando ramos de geração de vídeo e áudio em fluxo duplo compartilhando um codificador multimodal.
A arquitetura de fluxo duplo com codificador multimodal compartilhado, onde ramos de vídeo e áudio são gerados simultaneamente enquanto são condicionados pela mesma compreensão do texto.
A informação flui do prompt de texto para o codificador compartilhado, se decompon em compreensão, e esse entendimento flui para ambos os ramos. Eles não esperam um pelo outro, mas são orquestrados pelo mesmo input conceitual.
Modelos de difusão são ideais para essa geração conjunta porque tanto o vídeo quanto o áudio se beneficiam de refinamento passo a passo. A cada etapa de difusão, o ramo de vídeo pode ser suavemente impulsionado pela estimativa atual do ramo de áudio, e vice-versa. É como dois músicos refinando sua performance em tempo real, cada um ouvindo e se ajustando ao outro.
Uma interface para geração, edição e inpainting
É aqui que a elegância arquitetônica se torna força prática. A maioria dos modelos de vídeo exige caminhos de código separados para "gerar do zero", "editar este vídeo" e "estender este clipe". SkyReels-V4 unifica todos esses sob um único mecanismo usando concatenação de canal.
O truque é enganadoramente simples. Canais de entrada diferentes podem ser preenchidos com diferentes conteúdos ou mascarados à esquerda:
- Geração de texto para vídeo: Todos os canais de entrada estão vazios (mascarados), então o modelo gera tudo do zero.
- Imagem-para-vídeo: Uma imagem inicial é incorporada em certos canais, outros permanecem vazios, e o modelo gera o vídeo que se segue.
- Extensão de vídeo: Quadros de vídeo existentes preenchem alguns canais, outros são mascarados, e o modelo gera o que vem a seguir.
- Inpainting: Um vídeo com regiões mascaradas é fornecido, os canais dessas regiões ficam vazios e o modelo preenche as lacunas de forma coerente.
- Edição referenciada à visão: Tanto um vídeo para editar quanto uma imagem de referência mostrando o estilo desejado são incorporados como condicionamento, e o modelo edita de acordo.
Abordagens tradicionais exigem modelos ou procedimentos de treinamento diferentes para cada tarefa. O SkyReels-V4 aprende um processo unificado de difusão. Durante o treinamento, ele vê combinações aleatórias de canais preenchidos e vazios e aprende a pintar inteligentemente. Esse tratamento unificado se estende naturalmente a cenários complexos onde múltiplas referências guiam a geração, algo crucial para a produção em nível cinematográfico.
Tornando a resolução de cinema computacionalmente viável
Gerar vídeo 1080p a 32 quadros por segundo durante 15 segundos é computacionalmente caro. Você não pode simplesmente aumentar o processo de difusão e esperar por tempos de inferência viáveis. Em vez disso, o SkyReels-V4 utiliza uma estratégia de três estágios que mantém a qualidade onde mais importa, ao mesmo tempo em que reduz o custo computacional em outras áreas.
O primeiro estágio gera todo o vídeo em resolução mais baixa usando o MMDiT de fluxo duplo. Isso é computacionalmente eficiente e captura coerência temporal total, composição geral e sincronização áudio-vídeo. O modelo já resolve o problema difícil: como a cena deve ser e como som e imagem devem se alinhar.
O segundo estágio identifica quadros críticos, pontos de máxima mudança visual ou sonora, momentos-chave narrativos e regenera apenas esses quadros em resolução total de 1080p. É aí que detalhes e fidelidade mais importam.
O terceiro estágio aplica upscaling e interpolação inteligentes. Quadros de baixa resolução passam por um modelo Super-Resolution para upscalar para 1080p enquanto preservam o conteúdo. Quadros-chave e seus vizinhos ampliados passam por um modelo de Interpolação de Quadros para gerar quadros entre eles, mantendo movimento suave e coerência temporal.
Pipeline mostrando geração de baixa resolução seguida de upscaling de quadros-chave e interpolação de quadros.
O pipeline de três estágios: geração de sequência completa (F) em baixa resolução, seleção e upscaling de quadros-chave (KF), e interpolação de quadros para manter o movimento suave.
Essa abordagem funciona porque o modelo de baixa resolução já aprendeu as restrições rígidas. Upscaling e interpolação são problemas muito mais simples e aprendíveis. Você não está pedindo para o modelo inventar detalhes do zero, está pedindo para ele completar plausivelmente um padrão que ele já entende. A pegada de memória e o tempo de inferência diminuem drasticamente em comparação com gerar tudo em resolução total, tornando possível a saída em qualidade cinematográfica.
Como ele realmente se comporta
A arquitetura só importa se ela entregar resultados. O artigo posiciona a SkyReels-V4 dentro de um cenário competitivo, em vez de reivindicar uma dominância óbvia, o que paradoxalmente fortalece a credibilidade.
Análise Artificial Texto para Vídeo com Tabela de Classificação da Arena de Áudio mostrando o ranking do SkyReels-V4.
SkyReels-V4 ocupa o terceiro lugar na tabela de classificação Artificial Text-to-Video with Audio Arena, competindo ao lado de Veo 3.1, Sora-2 e outros modelos de ponta.
No ranking de Análise Artificial, SkyReels-V4 ocupa o terceiro lugar geral, competindo contra modelos como Veo 3.1, Sora-2 e Wan 2.6. Isso a posiciona em um nível de modelos realmente competitivos, em vez de reivindicar o vencedor óbvio.
Métricas absolutas de qualidade em múltiplas dimensões (qualidade visual, coerência temporal, sincronização áudio-vídeo) estabelecem bases para o que é um bom desempenho:
Resultados absolutos de pontuação em uma escala Likert de 5 pontos comparando SkyReels V4 com as linhas base.
Métricas de qualidade absoluta mostram que o SkyReels-V4 apresenta desempenho consistente em dimensões, incluindo qualidade visual, coerência de movimento e sincronização áudio-vídeo.
Comparações diretas revelam nuances. Contra Kling 2.6, o desempenho é comparável, com alguns casos extremos favorecendo cada um. Contra o Veo 3.1, a concorrência é acirrada, sugerindo que esses modelos operam em um nível diferente. Contra Seedance 1.5 Pro e Wan 2.6, a comparação de qualidade mostra o SkyReels-V4 consistentemente na faixa "Bom".
Comparação geral de qualidade mostrando Boa, Mesma e Ruim em todas as linhas base.
A comparação geral de qualidade (avaliações Bom/Mesma/Ruim) mostra que a SkyReels-V4 é competitiva em todos os campos.
A comparação com o Kling 2.6 mostra desempenho competitivo com pontos fortes complementares.
SkyReels V4 vs. Seedance 1.5 Pro.
A comparação com o Seedance 1.5 Pro demonstra qualidade consistente em todos os critérios de avaliação.
A comparação com o Veo 3.1 mostra uma competição acirrada entre dois modelos que operam na fronteira.
Comparação SkyReels V4 vs. Wan 2.6.
A comparação com o Wan 2.6 indica a vantagem consistente de desempenho do SkyReels-V4.
A arquitetura realmente brilha onde foi projetada: cenários com um condicionamento rico. Casos com múltiplas referências de imagem, referências de áudio e máscaras complexas se beneficiam enormemente da interface multimodal unificada. Prompts mais simples podem não mostrar tanta vantagem, mas a produção em nível cinematográfico, que por natureza envolve referências ricas e orientações complexas, é onde esse modelo se destaca.
Exemplo demonstrando múltiplas imagens e referências de áudio orientando a geração.
O condicionamento complexo com múltiplas referências de imagem e áudio demonstra a flexibilidade do modelo no manejo de entradas multimodais ricas.
Esse posicionamento competitivo é honesto. SkyReels-V4 não é apresentado como o vencedor óbvio, o que torna os verdadeiros pontos fortes mais críveis. Ele se destaca em nichos específicos (condicionamento multimodal, sincronização áudio-vídeo, edição unificada) enquanto faz parte de um cenário onde múltiplos modelos avançam a fronteira.
O que faz essa abordagem importar
A verdadeira inovação no SkyReels-V4 não está em um componente único. É a visão de que a geração de vídeo e áudio deve ser unificada, que o condicionamento multimodal rico deve parecer natural, e que a eficiência não deve exigir sacrificar a qualidade de nível cinematográfico.
Ao construir uma arquitetura de fluxo duplo com uma base conceitual compartilhada, unificar geração e edição sob uma única interface, e aplicar estrategicamente superresolução e interpolação, o modelo demonstra algo que parece inevitável em retrospecto, mas que exige um insight genuíno para ser executado.
Trabalhos anteriores como <a href=" estabeleceram a base de geração de vídeo, enquanto <a href=" Audio mostrou a promessa de síntese visual condicionada por áudio.
Este é um resumo de artigos em inglês simples de um artigo de pesquisa chamado <a href=" Uma Arquitetura Híbrida de Atenção Temporal-Consciente para Recomendação Sequencial de Comportamento Longo</a>. Se você gosta desse tipo de análise, junte-se ao <a href=" ou siga-nos no <a href=" <h2>A troca impossível</h2> <p>Por anos, qualquer pessoa que construisse um sistema de recomendação enfrentava um dilema real. As sequências de comportamento do usuário podem se estender para milhares ou dezenas de milhares de interações. Compreender essa história exige responder a uma pergunta aparentemente simples: dado tudo o que um usuário já fez antes, o que devemos recomendar a seguir?</p> <p>A abordagem padrão utiliza atenção softmax, um mecanismo que calcula comparações detalhadas entre o momento atual e cada interação passada. Matematicamente, é elegante. Funciona lindamente. Mas o custo computacional escala quadráticamente com o comprimento da sequência. Com 10.000 interações, você faz cerca de 100 milhões de comparações só para fazer uma recomendação. Escale isso para milhões de usuários e milhares de recomendações por segundo, e seus custos de infraestrutura se tornam proibitivos.</p> <p>Então os praticantes fazem concessões. Eles recorrem a mecanismos lineares de atenção, que reduzem a complexidade computacional de quadrática para linear. A matemática é inteligente, e os ganhos de velocidade são reais. O problema: essa velocidade tem um preço. Esses mecanismos mantêm um "estado" em execução que é atualizado a cada nova interação, mas esse estado tem capacidade limitada. É como um bibliotecário que só consegue anotar padrões grosseiros em uma pequena prancheta em vez de consultar registros completos. Você perde a precisão necessária para reconhecer sequências comportamentais específicas que indicam a intenção do usuário.
Esse equilíbrio definiu o campo. Métodos eficientes sacrificam a precisão. Métodos precisos sacrificam velocidade. E os usuários que mais sofrem são aqueles com sequências ultralongas, os usuários avançados e os engajadores pesados que têm o comportamento mais interessante para aprender.
Os pesquisadores por trás do HyTRec assistiram a isso e fizeram uma pergunta diferente: E se isso não for realmente um único problema que exige uma única solução?
Como os usuários realmente pensam
O insight começa com uma observação simples sobre como as preferências dos usuários realmente funcionam. Você tem dois tipos fundamentalmente diferentes de sinais de preferência, e eles operam em escalas de tempo completamente distintas.
Suas preferências estáveis de longo prazo vêm de uma história profunda. Se você clicou em gadgets tecnológicos 500 vezes em dois anos, isso é uma forte evidência de que você gosta de tecnologia. Essa preferência não varia muito de semana para semana. Importante, você não precisa de todas essas 500 interações para entender o padrão. Você poderia aprender a mesma coisa com 50 deles, ou até mesmo com um resumo estatístico aproximado. Ser aproximado nesse sinal não perde quase nada.
Seus picos de intenção de curto prazo vêm de comportamentos recentes. Se você clicou em três casacos de inverno nas últimas duas horas, está comprando casacos agora. Esse sinal é frágil. É fácil não perceber se você estiver fazendo a média com milhares de outras interações de meses atrás. Mas é incrivelmente preditivo do que você fará nos próximos cinco minutos.
Esses não são apenas diferentes em grau, são diferentes em espécie. Um é estável e pode tolerar aproximação. A outra é volátil e exige precisão. No entanto, os métodos existentes tentam lidar com ambos com um único mecanismo de atenção, inevitavelmente otimizando para um às custas do outro.
A solução híbrida
A atitude elegante é parar de tentar construir um mecanismo que faça tudo. Em vez disso, divida o trabalho de uma forma que espelhe como os usuários realmente navegam.
A arquitetura segue dois caminhos paralelos. No primeiro, toda a sua sequência histórica, mesmo contendo 9.000 interações dos últimos seis meses, passa por um ramo linear de atenção. Esse ramo não precisa ser preciso. É construir um entendimento amplo da sua categoria geral de gosto. Como usa atenção linear, ele completa em tempo proporcional ao comprimento da sequência, não ao quadrado do comprimento da sequência. É rápido.
No segundo caminho, suas interações recentes, talvez 1.000 das últimas duas semanas, passam por um ramo de atenção softmax. Esse ramo pode ser caro porque opera com uma fatia minúscula de dados. Ele produz representações precisas do que você pode querer agora. Você está fazendo cálculos caros, mas em uma janela pequena.
Cada ramo produz uma representação do "o que devemos recomendar." Depois, a arquitetura combina tudo de forma inteligente. Você restaurou a precisão da atenção softmax mantendo a velocidade da atenção linear, porque cada um agora está operando em seu domínio adequado.
O HyTRec divide longas sequências de comportamento do usuário entre dois mecanismos especializados de atenção, permitindo que preferências estáveis e picos recentes de intenção sejam tratados de forma independente.
Isso não é um ajuste menor. A complexidade computacional permanece linear em comprimento de sequência, operando em sequências 10 vezes mais longas do que abordagens anteriores conseguiam lidar eficientemente. Mas há um detalhe escondido na arquitetura.
Fazer com que os sinais recentes importem
O desafio de um sistema híbrido é que o ramo linear de atenção já passou por milhares de interações. A filial softmax já viu centenas. Por volume, o sinal do ramo linear é mais alto. Mas, na recomendação, a recência importa mais do que o volume. Um clique de hoje já diz mais sobre o que alguém quer do que um clique de seis meses atrás.
Se você tratar ambos os ramos igualmente, os dados obsoletos abafam os dados novos. Você resolveu o problema computacional, mas criou um problema de responsividade.
A solução é chamada de Rede Delta Consciente do Tempo, ou TADN. O mecanismo faz algo simples: aumenta dinamicamente os sinais comportamentais novos enquanto suprime o ruído histórico.
Imagine um mecanismo de barreira que pergunta a cada parte da sequência: "Quantos anos você tem?" Interações novas ganham pesos maiores. Interações antigas recebem menos peso. Isso não acontece em um cronograma fixo, é aprendido com dados. A rede descobre padrões como: "Para este usuário, os padrões de comportamento mudam a cada poucos dias, então interações com mais de uma semana devem ser ponderadas pela metade da força."
Sem o TADN, o sistema híbrido faria recomendações cada vez mais obsoletas à medida que as preferências do usuário mudavam. Com isso, o sistema continua responsivo às mudanças. Sinais recentes naturalmente influenciam mais as recomendações, mas a rede aprende exatamente quanta influência faz sentido para cada usuário e tipo de interação.
Resultados no mundo real
Os pesquisadores testaram o HyTRec em conjuntos de dados massivos, com sequências reais de comportamento do usuário que chegam a dezenas de milhares de interações por usuário. Isso não é dados acadêmicos limpos, é uma bagunça em escala de produção.
Em velocidade, os resultados importam. O HyTRec mantém complexidade de inferência linear. Dobre o comprimento da sequência, e o tempo de inferência dobra aproximadamente. Não quadruplica como a atenção softmax faria. Em sequências de 10.000 de comprimento, essa diferença determina se você pode recomendar em 50 milissegundos ou em 5 segundos. Em uma plataforma que atende milhões de usuários, essa diferença é a linha entre o viável e o impossível.
Comparação de throughput de treinamento entre comprimentos de sequência
O HyTRec mantém um throughput de treinamento estável à medida que o comprimento da sequência aumenta, enquanto métodos baseados em atenção puramente softmax apresentam desacelerações dramáticas em sequências mais longas.
Quanto à precisão, as melhorias são substanciais. Para usuários com sequências ultralongas, o HyTRec proporcionou uma melhora de mais de 8% na Taxa de Acerto. Taxa de Acerto mede se recomendar 10 itens leva a pelo menos um clique. Uma melhora de 8% significa que 8% mais das suas recomendações são coisas que os usuários realmente querem. Para uma plataforma com milhões de usuários, isso não é uma métrica acadêmica. Isso é engajamento de verdade.
As melhorias não são uniformes para todos os usuários. Usuários com histórico mais curto não veem os mesmos ganhos. Isso é esperado, e na verdade é informativo. A arquitetura híbrida ajuda exatamente onde a troca entre velocidade e precisão era mais dolorosa.
Escolhendo seu equilíbrio velocidade-precisão
Sistemas reais não são monolíticos. Ao implantar o HyTRec, você controla quantas interações vão para o branch linear versus o branch softmax. Envie 9.000 interações recentes para o softmax e 1.000 antigas para o linear, e você prefere a precisão. Inverta essa proporção e você prefere a velocidade.
Empresas diferentes enfrentam restrições distintas. Uma plataforma com ampla capacidade de GPU pode direcionar mais o processamento para o softmax. Um sistema mobile-first com orçamentos de latência rigorosos pode tender a ser mais linear. O valor dessa arquitetura é que ela permite que você faça essa escolha explicitamente, com uma compreensão clara dos tradeoffs.
Desempenho em diferentes índices de atenção híbrida
À medida que a proporção de interações tratadas pela atenção softmax aumenta, a qualidade da recomendação melhora gradualmente enquanto a velocidade de inferência diminui. As equipes podem selecionar o ponto que corresponde às suas restrições de infraestrutura.
Os pesquisadores também exploraram como o número de redes de especialistas e chefes de atenção afeta o desempenho. São alavancas de afinação mais finas. A conclusão prática é que o HyTRec não é uma caixa preta fixa com uma configuração correta. É um framework onde diferentes partes podem ser otimizadas para diferentes necessidades.
Efeito da contagem de redes especialistas nas métricas de desempenho
O número de redes especializadas de especialistas pode ser ajustado com base na capacidade do modelo e nos requisitos de desempenho.
Efeito da contagem de atenção nas métricas de desempenho
A contagem de atenção oferece outra dimensão para ajustar a troca velocidade-precisão para atender às necessidades específicas de implantação.
Essa flexibilidade é importante porque os sistemas de recomendação operam em ambientes diferentes. Uma plataforma de conteúdo onde os usuários têm redes rápidas enfrenta restrições diferentes de um sistema otimizado para regiões em desenvolvimento com largura de banda limitada. A HyTRec fornece aos times os dados para fazerem escolhas informadas sobre sua configuração.
Por que esse padrão importa
A lição mais ampla vai além dos sistemas de recomendação. Sempre que você se vê preso entre abordagens concorrentes, a pergunta certa é: elas estão realmente resolvendo o mesmo problema, ou estão resolvendo subproblemas diferentes que merecem soluções diferentes?
A HyTRec não inventou a atenção linear ou softmax. Reconheceu que as preferências dos usuários são genuinamente multitemporais, e que diferentes mecanismos de atenção poderiam ser especialistas em vez de generalistas. Esse padrão de decomposição, onde problemas complexos são divididos em partes e cada parte recebe uma solução adaptada às suas características, aparece em todo o aprendizado de máquina moderno.
A validação em escala industrial também importa. Isso não é elegância teórica. O sistema lida com sequências 10 vezes mais longas do que abordagens eficientes anteriores conseguiam gerenciar, com dados reais do usuário, em contextos de produção. Esse é o tipo de trabalho que determina o que é realmente possível construir no mundo real.
Post original: <a href=" on - #ai #hytrec
