HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

O artigo apresenta o HorizonForge, um framework unificado que utiliza Splats Gaussianos e Malhas combinados com difusão de vídeo para gerar cenas de direção fotorealistas e editáveis com controle preciso sobre trajetórias e veículos, superando os métodos existentes em fidelidade e consistência temporal.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem, Chenyu You, Manmohan Chandraker, Ziyu Jiang

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um diretor de cinema, mas em vez de filmar carros reais em uma rua perigosa, você está editando um vídeo de trânsito que já existe. O seu objetivo é mudar a história: fazer o carro principal virar à esquerda, adicionar um caminhão vermelho que não estava lá antes, ou fazer um carro de corrida aparecer do nada.

O problema é que, até agora, fazer isso com computadores era como tentar pintar um quadro em 3D usando apenas tinta de spray: ou ficava muito feio e irreal, ou você perdia o controle e o carro "desaparecia" ou se transformava em uma gelatina.

Aqui entra o HorizonForge. Pense nele como um "Canivete Suíço Mágico para Trânsito".

Aqui está como ele funciona, explicado de forma simples:

1. O Segredo: Transformando Vídeo em "Massa de Modelar" (Gaussian Splats)

Normalmente, um vídeo é apenas uma sequência de fotos planas. Se você tentar mudar algo, o computador fica confuso.
O HorizonForge faz algo diferente: ele pega o vídeo original e o transforma em uma nuvem de milhões de "pontos brilhantes" 3D (chamados de Gaussian Splats).

  • A Analogia: Imagine que o vídeo original é uma foto impressa. O HorizonForge transforma essa foto em uma escultura feita de milhões de bolinhas de gude coloridas flutuando no ar.
  • Por que isso é legal? Porque agora, se você quiser mover um carro, você não está apenas "recortando" a foto. Você está movendo fisicamente as bolinhas de gude que formam o carro. Isso permite que você mova o carro para qualquer lugar, em qualquer ângulo, e o computador sabe exatamente como a luz deve bater nele, mantendo a aparência realista.

2. Adicionando Novos Personagens (Inserção de Veículos)

E se você quiser adicionar um carro que não estava no vídeo original?
O HorizonForge usa uma "mágica" de texto. Você diz: "Adicione um sedan cinza na frente do caminhão".

  • O sistema cria um modelo 3D desse carro novo (como se fosse um boneco de brinquedo digital).
  • Ele então "encaixa" esse boneco na escultura de bolinhas de gude que já existia.
  • O resultado é que o novo carro parece que sempre esteve lá, com sombras e reflexos perfeitos.

3. O "Diretor de Cinema" Inteligente (Modelo de Difusão de Vídeo)

Aqui está a parte mais importante. Mover as "bolinhas de gude" pode deixar a imagem com falhas ou tremida, como um filme antigo danificado.
Para consertar isso, o HorizonForge usa um Diretor de Cinema Artificial (um modelo de difusão de vídeo).

  • A Analogia: Imagine que você moveu os móveis de uma sala, mas a parede ficou com um buraco feio. O Diretor de Cinema olha para o buraco e, em vez de apenas pintar por cima, ele "sonha" com a textura perfeita da parede para preencher o espaço, garantindo que a luz e a cor batam com o resto da sala.
  • Além disso, esse diretor é especialista em tempo. Ele garante que, se o carro se moveu para a esquerda no quadro 1, ele continue se movendo suavemente para a esquerda no quadro 2, sem piscar ou tremer. Isso é o que chamam de "consistência temporal".

4. O Campo de Prova (HorizonSuite)

Para provar que o sistema é bom, os criadores fizeram um "olímpico de edição de trânsito" chamado HorizonSuite.
Eles testaram o sistema em tarefas difíceis, como:

  • Fazer o carro do motorista virar em uma esquina.
  • Fazer um carro mudar de faixa bruscamente.
  • Adicionar ou remover carros aleatórios.

O Resultado? O HorizonForge venceu todos os outros métodos. As pessoas que viram os vídeos preferiram o dele em 91% dos casos. Os carros pareciam reais, os movimentos eram suaves e as edições seguiam exatamente o que foi pedido.

Resumo da Ópera

O HorizonForge é como ter um poder de Deus sobre vídeos de trânsito. Ele pega um vídeo real, desmonta-o em peças 3D manipuláveis, permite que você mude a história (mova carros, adicione novos, mude trajetórias) e depois usa uma inteligência artificial avançada para "remontar" o vídeo, garantindo que tudo pareça perfeitamente realista e seguro.

Isso é incrível para testar carros autônomos, porque os engenheiros podem criar cenários perigosos (como um carro freando bruscamente na frente de outro) sem precisar colocar ninguém em risco na vida real. É como um simulador de voo, mas para carros, e com gráficos que parecem a realidade.