FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

O artigo apresenta o FoleyDirector, um novo framework que introduz Scripts Temporais Estruturados e síntese de som bi-frame para permitir um controle temporal preciso e de alta fidelidade na geração de áudio a partir de vídeo, superando as limitações atuais em cenários complexos e com eventos múltiplos.

You Li, Dewei Zhou, Fan Ma, Fu Li, Dongliang He, Yi Yang

Publicado 2026-03-23
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme mudo. Você vê um carro passando, mas não ouve o motor. Você vê alguém batendo na porta, mas não ouve a batida. Antigamente, para dar som a esses filmes, era necessário um "artista de Foley" (um profissional de som) gastar horas e horas criando esses sons manualmente, tentando sincronizá-los perfeitamente com a imagem.

Hoje, a Inteligência Artificial tenta fazer isso sozinha, mas ela tem um problema: é um pouco "cega" para o tempo e para o que está fora da tela. Se você pedir para ela fazer o som de um carro, ela pode fazer o barulho o tempo todo, ou no momento errado, ou não entender que o carro está fora da tela e o som vem de longe.

É aqui que entra o FoleyDirector. Pense nele como um diretor de cinema para a inteligência artificial.

Aqui está como ele funciona, usando analogias simples:

1. O Problema: A IA que não sabe "quando" tocar

As IAs atuais olham para a imagem e dizem: "Ah, tem um cachorro, vou fazer um latido". Mas se o cachorro está fora da tela (você só ouve o latido), a IA fica confusa. Se você quer que o latido seja apenas entre 2 e 3 segundos, e silêncio depois, a IA atual geralmente falha e faz barulho o tempo todo.

2. A Solução: O Roteiro Estruturado (Structured Temporal Scripts)

O FoleyDirector introduz uma ideia genial: em vez de dar à IA apenas uma descrição geral do filme ("Um homem caminha na floresta"), ele dá um roteiro detalhado, segundo a segundo.

  • A Analogia: Imagine que a IA é um músico que toca piano.
    • Antes: Você dizia: "Toca uma música triste". O músico tocava algo triste, mas não sabia quando começar ou parar.
    • Com o FoleyDirector: Você entrega um roteiro que diz: "Segundo 0 a 2: Toca um acorde suave. Segundo 3 a 5: Silêncio total. Segundo 6: Toca um acorde alto e assustador".
    • Isso é o que chamam de Roteiros Temporais Estruturados. É como dar à IA um cronômetro e um manual de instruções exato para cada pedaço de som.

3. O "Fusor Mágico" (Script-Guided Temporal Fusion)

Como a IA junta a imagem do vídeo com esse roteiro de tempo? O papel descreve um módulo chamado SG-TFM.

  • A Analogia: Pense em uma orquestra. O vídeo é o maestro, e o roteiro de tempo é o regente que bate a batuta.
    • O SG-TFM é o regente que garante que a orquestra (a IA) olhe para a imagem e para o roteiro de tempo ao mesmo tempo.
    • Ele usa uma técnica especial (chamada "Interleaved RoPE") que é como colocar o roteiro e a música lado a lado na partitura, garantindo que o som bata exatamente no tempo certo da batida do maestro.

4. O Truque do "Dois Quadros" (Bi-Frame Sound Synthesis)

Às vezes, o som é complicado. Imagine um filme onde você vê um cachorro latindo (dentro da tela), mas também ouve uma sirene de polícia passando lá fora (fora da tela). A IA costuma se confundir e misturar tudo.

  • A Analogia: O FoleyDirector usa uma técnica chamada Bi-Frame. Imagine que a IA tem dois estúdios de gravação separados funcionando ao mesmo tempo:
    1. Estúdio A (Dentro da Tela): Grava os sons do que você (o cachorro latindo). Ele olha para o vídeo.
    2. Estúdio B (Fora da Tela): Grava os sons do que você não vê (a sirene). Ele ignora o vídeo e só olha para o roteiro que você escreveu.
    • No final, ele mistura as duas faixas perfeitamente. Assim, você pode ter um cachorro latindo na tela enquanto uma sirene passa fora dela, e a IA não vai ficar confusa.

5. O Resultado: Você vira o Diretor

O grande diferencial do FoleyDirector é que ele permite que você assuma o controle.

  • Você pode dizer: "Quero o som de um carro de 5 a 6 segundos, e silêncio no resto".
  • Você pode dizer: "O tigre boceja, mas de repente ele miar como um gato, e as pessoas riem".
  • A IA obedece. Ela não tenta adivinhar; ela segue suas instruções de tempo.

Resumo

O FoleyDirector é como dar um relógio de precisão e um roteiro de cinema para uma Inteligência Artificial que cria sons.

  • Antes: A IA fazia barulho aleatório ou no momento errado.
  • Agora: Com o FoleyDirector, você pode dizer exatamente o que fazer, quando fazer e por quanto tempo, mesmo que o som venha de fora da tela.

Isso transforma a criação de filmes e vídeos, permitindo que qualquer pessoa, sem ser um especialista em som, possa dirigir a trilha sonora de seus vídeos com precisão de relógio.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →