Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o segurança de um shopping center. Você tem uma câmera que grava tudo o que acontece na entrada principal. O problema é que você não pode ficar olhando a tela 24 horas por dia; você ficaria exausto e perderia detalhes importantes. Então, você precisa de um "segundo olho" inteligente para avisar quando algo estranho acontece.

A maioria dos sistemas atuais funciona como um robô que só vê pixels. Ele sabe que uma pessoa correndo é diferente de uma pessoa parada, mas se duas pessoas se tocarem de um jeito estranho (como empurrar alguém dentro de uma caixa), o robô pode ficar confuso porque nunca viu isso antes. Além disso, quando o robô avisa "algo errado!", ele não sabe explicar o que está errado, apenas aponta para a tela.

Este artigo apresenta uma nova solução chamada MLLM-EVAD. Vamos usar uma analogia simples para entender como ele funciona:

1. O Detetive com um Caderno de Histórias (O Treinamento)

Em vez de apenas olhar para as cores e formas das imagens, nosso sistema usa um Inteligente Artificial Multimodal (MLLM). Pense nele como um detetive muito observador que sabe falar e escrever fluentemente.

O que ele faz: O sistema pega vídeos normais (onde tudo está certo) e pede ao detetive: "Olhe para estas duas pessoas que estão perto uma da outra. O que elas estão fazendo?"
A Mágica: O detetive não responde com números ou coordenadas. Ele escreve uma frase simples, como: "Duas pessoas estão caminhando lado a lado conversando" ou "Um cachorro está sendo passeado com uma coleira".
A Biblioteca de Normalidade: O sistema coleta milhares dessas frases e cria uma "Biblioteca de Comportamentos Normais". Ele guarda apenas as frases mais diferentes entre si para não ficar repetitivo. É como ter um álbum de fotos de "coisas que costumam acontecer aqui".

2. O Teste: Quando Algo Sai do Script (A Detecção)

Agora, imagine que um vídeo novo começa a ser gravado. O sistema faz a mesma coisa: ele pede ao detetive para descrever o que está acontecendo entre os objetos.

O Cenário Estranho: Digamos que, no vídeo novo, uma pessoa esteja sendo empurrada dentro de uma caixa grande por outra pessoa.
A Reação do Sistema: O detetive escreve: "Uma pessoa está sendo empurrada dentro de uma caixa".
A Comparação: O sistema pega essa frase nova e compara com a "Biblioteca de Comportamentos Normais". Ele procura por algo parecido.
- Ele vê frases como "Pessoas caminhando" ou "Pessoas sentadas".
- Nenhuma delas se parece com "Pessoa sendo empurrada numa caixa".
O Alerta: Como a frase nova é muito diferente de tudo o que está na biblioteca, o sistema grita: "ALERTA! Isso é estranho!".

3. A Grande Vantagem: A Explicação (A "Por que?")

Aqui está a parte mais legal e que torna este trabalho especial.

Se um sistema antigo detecta uma anomalia, ele pode apenas mostrar um quadrado vermelho na tela dizendo "Aqui tem um problema". Mas por que é um problema? O humano precisa adivinhar.

Com nosso novo sistema, quando o alerta soa, ele mostra a frase que escreveu e a frase mais parecida que ele tem na biblioteca.

O que aconteceu: "Pessoa sendo empurrada numa caixa".
O que é normal: "Pessoa caminhando na calçada".

Isso dá ao segurança humano uma explicação clara e em linguagem natural do porquê aquilo é suspeito. Não é apenas um número; é uma história que faz sentido.

Resumo da Ópera

O Problema: Sistemas antigos não entendem interações complexas (como empurrões ou objetos sendo usados de forma estranha) e não sabem explicar o motivo do alerta.
A Solução: Usar uma Inteligência Artificial que "conversa" sobre o vídeo, transformando ações em frases.
O Resultado: O sistema aprende o que é "normal" lendo histórias sobre o dia a dia. Quando uma história nova e estranha aparece, ele avisa e explica exatamente o que está fora do comum.

É como ter um assistente que não apenas vigia a câmera, mas que conta a história do que está acontecendo, permitindo que você entenda rapidamente se a história é de um filme de terror ou apenas um dia comum no shopping.

Each language version is independently generated for its own context, not a direct translation.

Título: Aproveitando Descrições de Atividade de LLMs Multimodais para Detecção Explicável Semi-Supervisionada de Anomalias em Vídeo

1. O Problema

A detecção de anomalias em vídeo (VAD - *Video Anomaly Detection) no regime semi-supervisionado (onde apenas vídeos normais de treinamento estão disponíveis) enfrenta dois desafios principais:

Dificuldade com Anomalias Complexas: Métodos existentes frequentemente falham ao detectar anomalias que envolvem interações complexas entre objetos (ex: uma pessoa empurrando outra, um animal solto), focando apenas em atividades de objetos individuais ou mudanças de pixel.
Falta de Explicabilidade: A maioria dos modelos atuais opera como "caixas pretas", fornecendo apenas uma pontuação de anomalia sem explicar por que um evento foi considerado anômalo. Métodos que tentam ser explicáveis geralmente interpretam características de entrada de baixo nível, mas não oferecem explicações textuais diretas e semânticas.

Além disso, a maioria das abordagens baseadas em Grandes Modelos de Linguagem (LLMs) foca em cenários multi-cena ou supervisionados fracamente, não sendo adequadas para o cenário de uma única cena semi-supervisionada, onde o que é anômalo é específico do local e depende do contexto das interações.

2. Metodologia (MLLM-EVAD)

Os autores propõem um novo framework chamado MLLM-EVAD (MLLM-based Explainable Video Anomaly Detection). A ideia central é usar um Modelo de Linguagem Multimodal (MLLM) para gerar descrições textuais de alto nível das atividades e interações de objetos, utilizando essas descrições como representações de "normalidade".

O pipeline funciona da seguinte forma:

Detecção e Rastreamento de Objetos:
- Utiliza detectores (Detectron2) e rastreadores (ByteTrack) para identificar objetos em cada quadro.
- Os objetos são rastreados por 30 quadros para obter trajetórias.
- Emparelhamento: Objetos próximos espacialmente (calculando uma distância pseudo-3D baseada na profundidade estimada) são emparelhados para capturar interações. Objetos isolados são tratados individualmente.
Geração de Descrições Textuais (MLLM):
- Para cada par de objetos (ou objeto único), são extraídos recortes (crops) de duas imagens: o quadro atual ( $t$ ) e um quadro futuro ( $t + \Delta$ , onde $\Delta \approx 30$ quadros, ou 1 segundo).
- Esses pares de imagens são enviados a um agente MLLM (como GPT-4o ou Gemma 3) com um prompt específico solicitando uma descrição breve da atividade e interação.
- Exemplo de Prompt: "Descreva brevemente o que as pessoas nas regiões delimitadas estão fazendo. As duas imagens foram tiradas um segundo de distância."
Construção do Modelo de Normalidade (Seleção de Exemplares):
- As descrições textuais geradas são convertidas em vetores de incorporação (embeddings) usando um modelo de linguagem (Sentence-BERT).
- Um algoritmo de seleção de exemplares é aplicado aos dados de treinamento (vídeos normais). Ele remove descrições redundantes, mantendo um conjunto compacto e representativo de "exemplares normais" (vetores) para pares de objetos e objetos únicos.
Detecção de Anomalias:
- Durante o teste, as descrições textuais dos novos quadros são convertidas em vetores.
- A pontuação de anomalia é calculada baseada na distância (dissimilaridade cosseno) entre o vetor do teste e o exemplar mais similar no conjunto de normalidade.
- Uma alta pontuação (grande distância semântica) indica uma anomalia.
Explicabilidade:
- Quando uma anomalia é detectada, o sistema pode exibir a descrição textual gerada pelo MLLM para o evento anômalo e compará-la com a descrição do exemplar normal mais próximo, fornecendo uma explicação textual clara do desvio comportamental.

3. Principais Contribuições

Primeira Abordagem MLLM para Anomalias de Interação: É o primeiro método baseado em MLLM projetado especificamente para identificar anomalias complexas causadas pela interação entre objetos em cenários de uma única cena.
Novo Paradigma de Uso de MLLM: Em vez de usar o MLLM para julgar diretamente se um quadro é anômalo (como trabalhos anteriores), o método usa o MLLM para criar uma representação semântica do que é normal e detecta anomalias como desvios dessa representação.
Explicabilidade Inerente: O método fornece explicações textuais naturais para as anomalias detectadas, permitindo que operadores humanos entendam o contexto do evento.
Localização Espacial e Temporal: Ao contrário de métodos que apenas classificam quadros, a abordagem baseada em objetos permite localizar onde e quando a anomalia ocorre.
Integração com Métodos Existentes: O framework pode ser combinado com métodos tradicionais baseados em exemplares (como Scene-Graph ou Tracklet) para melhorar ainda mais a precisão.

4. Resultados Experimentais

Os autores avaliaram o método em três conjuntos de dados de referência: ComplexVAD (focado em interações), Avenue e Street Scene.

ComplexVAD (Foco Principal):
- O método MLLM-EVAD superou o segundo melhor método (Scene-Graph) em 5 pontos percentuais na métrica RBDC (Região), 4 pontos em TBDC (Rastreio) e 1 ponto no nível de quadro.
- A combinação de Scene-Graph + MLLM-EVAD alcançou o estado da arte (SOTA), atingindo 25% (RBDC), 70% (TBDC) e 63% (Frame-Level).
- O modelo conseguiu detectar anomalias complexas como "pessoa sentada em um carro" ou "cachorro sem coleira", onde os objetos individuais são normais, mas a interação não.
Avenue e Street Scene:
- Ao combinar o MLLM-EVAD com o método Tracklet EVAL (que usa atributos finos como velocidade e direção), o desempenho foi melhorado em todas as métricas, superando o SOTA em TBDC no conjunto Street Scene.
- Isso demonstra que as descrições textuais de alto nível complementam bem os atributos de baixo nível.
Avaliação de Explicabilidade:
- Uma avaliação humana mostrou que as explicações geradas pelo MLLM-EVAD foram classificadas como altamente informativas (3.8/5), comparáveis a anotações humanas (4.2/5), validando a capacidade explicativa do sistema.
Ablação e Modelos:
- O uso de Gemma 3 como MLLM superou o GPT-4o, gerando descrições mais detalhadas que melhoraram a detecção de interações sutis.
- Embeddings de Sentence-BERT foram mais eficientes e precisos do que métricas de texto bruto (BLEU/METEOR).

5. Significado e Impacto

Este trabalho representa um avanço significativo na área de VAD ao:

Resolver a lacuna de interações complexas: Demonstra que a modelagem semântica de interações via LLM é superior a métodos puramente visuais para certos tipos de anomalias.
Tornar a IA explicável: Oferece uma saída natural (texto) que humanos podem entender, crucial para aplicações de segurança pública onde a confiança no sistema é vital.
Flexibilidade: O modelo não requer re-treinamento de redes profundas para cada nova cena; ele aprende a "normalidade" através de exemplares textuais, tornando-o adaptável.

Limitações e Futuro:
O principal gargalo é o custo computacional e a latência de inferência dos MLLMs, o que dificulta aplicações em tempo real. Os autores sugerem o uso de modelos menores e fine-tuned para tarefas específicas como direção futura. Além disso, a falta de benchmarks com "ground truth" textual para anomalias em uma única cena dificulta a avaliação quantitativa rigorosa da explicabilidade.

Em resumo, o MLLM-EVAD estabelece um novo padrão para detecção de anomalias explicáveis, transformando a compreensão de vídeo de uma análise de pixels para uma análise semântica baseada em linguagem.

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

1. O Detetive com um Caderno de Histórias (O Treinamento)

2. O Teste: Quando Algo Sai do Script (A Detecção)

3. A Grande Vantagem: A Explicação (A "Por que?")

Resumo da Ópera

Título: Aproveitando Descrições de Atividade de LLMs Multimodais para Detecção Explicável Semi-Supervisionada de Anomalias em Vídeo

1. O Problema

2. Metodologia (MLLM-EVAD)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis