VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

O artigo apresenta o VidDoS, um ataque universal de negação de serviço que explora mecanismos de agregação temporal em Modelos de Linguagem de Vídeo (Video-LLMs) para induzir uma expansão de tokens e latência de inferência massivas, comprometendo aplicações críticas como a condução autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang, Xiao Yang, Jianyu Wang, Siqi Cai

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um carro autônomo super inteligente, um "robô motorista" que usa uma câmera para ver o mundo e um cérebro de IA (chamado de Video-LLM) para tomar decisões rápidas, como "frear agora" ou "mudar de faixa". Esse cérebro é incrível, mas, segundo este novo estudo, ele tem um segredo perigoso: ele pode ser enganado a pensar demais em coisas simples.

Os pesquisadores criaram um ataque chamado VidDoS (uma brincadeira com "Vírus de Negação de Serviço" para vídeos). Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Gargalo" do Cérebro

Normalmente, quando você pergunta algo simples para esse carro ("Tem um pedestre à frente?"), ele responde rápido: "Sim".
Mas, em vídeos, a IA olha para muitas imagens de uma vez. O estudo diz que os métodos antigos de ataque (que tentavam "confundir" a IA com ruído em uma única foto) não funcionam aqui. É como tentar parar um rio jogando uma pedra pequena; a água (o vídeo) simplesmente lava a pedra e segue em frente. A IA ignora a confusão porque ela olha para o vídeo como um todo, não quadro a quadro.

2. A Solução: O "Sinal de Trânsito Falso" Universal

O VidDoS é diferente. Em vez de tentar confundir a IA com ruído, os pesquisadores criaram um "adesivo digital" universal.

  • A Analogia: Imagine que você cola um pequeno adesivo brilhante e estranho no canto inferior direito de todas as fotos que a câmera do carro vê.
  • Esse adesivo não muda a estrada ou o carro da frente (o motorista humano ainda vê tudo normal), mas para a IA, ele é como um sinal de "PARE E PENSE".
  • A grande sacada é que esse adesivo funciona em qualquer vídeo, seja na chuva, no sol ou na noite. Você não precisa criar um novo adesivo para cada carro; um único adesivo serve para todos.

3. O Truque: Como eles fazem a IA "Falar Demais"?

A IA foi treinada para ser educada e direta (respostas curtas como "Sim" ou "Não"). O VidDoS usa três truques de mágica para quebrar essa educação:

  1. O Professor Fantasma (Teacher Forcing): A IA é forçada a seguir um roteiro onde ela precisa "falar" uma sequência longa e repetitiva, como se estivesse lendo um livro inteiro para responder a uma pergunta de "Sim/Não".
  2. O Bloqueio do "Fim": A IA tenta dizer "Fim da frase" (um comando para parar de gerar texto), mas o ataque diz: "Não, continue!". É como se alguém estivesse segurando a porta de saída de um elevador, impedindo as pessoas de saírem.
  3. A Recusa da Resposta Curta: Se a IA tentar responder "Sim", o ataque pune essa resposta, forçando-a a continuar gerando texto inútil.

4. O Resultado: O "Trânsito" na Computação

Quando o ataque acontece, o cérebro da IA entra em um estado de "pânico criativo".

  • Antes: A IA responde em 1 segundo.
  • Depois: A IA começa a gerar centenas de palavras inúteis, como um papagaio que não para de falar.
  • O Efeito: O computador do carro fica sobrecarregado tentando processar essas palavras. A resposta que deveria levar 1 segundo agora leva 15 a 20 vezes mais tempo.

5. Por que isso é perigoso? (O Cenário Real)

Imagine que você está dirigindo e precisa que o carro faça uma manobra de emergência.

  • Cenário Normal: O carro vê o perigo e freia em 0,5 segundos.
  • Cenário com VidDoS: O carro vê o perigo, mas o ataque faz o cérebro dele começar a "pensar" em um texto gigante. Enquanto o cérebro está ocupado gerando palavras, o carro não freia.
  • O estudo mostra que esse atraso pode fazer com que o carro atravesse uma faixa de segurança ou cause um acidente, porque o tempo de reação do sistema foi "engordado" artificialmente.

Resumo em uma frase

O VidDoS é como colocar um pequeno adesivo invisível nos óculos de um robô motorista que o faz pensar que precisa escrever um livro inteiro para responder a uma pergunta simples, fazendo com que ele demore tanto que o carro bate no obstáculo antes de conseguir reagir.

Os autores do estudo alertam que, à medida que usamos mais IAs em carros e sistemas de segurança, precisamos aprender a proteger esses "cérebros" contra esse tipo de ataque de "sobre-carregamento de pensamento".