Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este artigo apresenta um novo framework de detecção de anomalias em vídeo semi-supervisionado que utiliza Modelos de Linguagem Multimodais (MLLMs) para gerar descrições textuais de interações entre objetos, superando as limitações de métodos existentes ao detectar anomalias complexas com alto nível de explicabilidade e desempenho de ponta.

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o segurança de um shopping center. Você tem uma câmera que grava tudo o que acontece na entrada principal. O problema é que você não pode ficar olhando a tela 24 horas por dia; você ficaria exausto e perderia detalhes importantes. Então, você precisa de um "segundo olho" inteligente para avisar quando algo estranho acontece.

A maioria dos sistemas atuais funciona como um robô que só vê pixels. Ele sabe que uma pessoa correndo é diferente de uma pessoa parada, mas se duas pessoas se tocarem de um jeito estranho (como empurrar alguém dentro de uma caixa), o robô pode ficar confuso porque nunca viu isso antes. Além disso, quando o robô avisa "algo errado!", ele não sabe explicar o que está errado, apenas aponta para a tela.

Este artigo apresenta uma nova solução chamada MLLM-EVAD. Vamos usar uma analogia simples para entender como ele funciona:

1. O Detetive com um Caderno de Histórias (O Treinamento)

Em vez de apenas olhar para as cores e formas das imagens, nosso sistema usa um Inteligente Artificial Multimodal (MLLM). Pense nele como um detetive muito observador que sabe falar e escrever fluentemente.

  • O que ele faz: O sistema pega vídeos normais (onde tudo está certo) e pede ao detetive: "Olhe para estas duas pessoas que estão perto uma da outra. O que elas estão fazendo?"
  • A Mágica: O detetive não responde com números ou coordenadas. Ele escreve uma frase simples, como: "Duas pessoas estão caminhando lado a lado conversando" ou "Um cachorro está sendo passeado com uma coleira".
  • A Biblioteca de Normalidade: O sistema coleta milhares dessas frases e cria uma "Biblioteca de Comportamentos Normais". Ele guarda apenas as frases mais diferentes entre si para não ficar repetitivo. É como ter um álbum de fotos de "coisas que costumam acontecer aqui".

2. O Teste: Quando Algo Sai do Script (A Detecção)

Agora, imagine que um vídeo novo começa a ser gravado. O sistema faz a mesma coisa: ele pede ao detetive para descrever o que está acontecendo entre os objetos.

  • O Cenário Estranho: Digamos que, no vídeo novo, uma pessoa esteja sendo empurrada dentro de uma caixa grande por outra pessoa.
  • A Reação do Sistema: O detetive escreve: "Uma pessoa está sendo empurrada dentro de uma caixa".
  • A Comparação: O sistema pega essa frase nova e compara com a "Biblioteca de Comportamentos Normais". Ele procura por algo parecido.
    • Ele vê frases como "Pessoas caminhando" ou "Pessoas sentadas".
    • Nenhuma delas se parece com "Pessoa sendo empurrada numa caixa".
  • O Alerta: Como a frase nova é muito diferente de tudo o que está na biblioteca, o sistema grita: "ALERTA! Isso é estranho!".

3. A Grande Vantagem: A Explicação (A "Por que?")

Aqui está a parte mais legal e que torna este trabalho especial.

Se um sistema antigo detecta uma anomalia, ele pode apenas mostrar um quadrado vermelho na tela dizendo "Aqui tem um problema". Mas por que é um problema? O humano precisa adivinhar.

Com nosso novo sistema, quando o alerta soa, ele mostra a frase que escreveu e a frase mais parecida que ele tem na biblioteca.

  • O que aconteceu: "Pessoa sendo empurrada numa caixa".
  • O que é normal: "Pessoa caminhando na calçada".

Isso dá ao segurança humano uma explicação clara e em linguagem natural do porquê aquilo é suspeito. Não é apenas um número; é uma história que faz sentido.

Resumo da Ópera

  • O Problema: Sistemas antigos não entendem interações complexas (como empurrões ou objetos sendo usados de forma estranha) e não sabem explicar o motivo do alerta.
  • A Solução: Usar uma Inteligência Artificial que "conversa" sobre o vídeo, transformando ações em frases.
  • O Resultado: O sistema aprende o que é "normal" lendo histórias sobre o dia a dia. Quando uma história nova e estranha aparece, ele avisa e explica exatamente o que está fora do comum.

É como ter um assistente que não apenas vigia a câmera, mas que conta a história do que está acontecendo, permitindo que você entenda rapidamente se a história é de um filme de terror ou apenas um dia comum no shopping.