Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive encarregado de vigiar milhares de horas de filmagens de câmeras de segurança. Seu trabalho é encontrar momentos estranhos ou perigosos (como uma briga, um roubo ou uma explosão).

O problema é que você não tem tempo nem dinheiro para assistir a cada segundo de cada vídeo e marcar exatamente onde o crime começa e termina. Você só tem uma etiqueta simples no arquivo do vídeo: "Este vídeo contém um crime" ou "Este vídeo é normal". É como receber uma caixa de 100 DVDs com um post-it dizendo "Tem algo errado aqui", mas sem saber em qual minuto.

Esse é o desafio da Detecção de Anomalias em Vídeo com Supervisão Fraca. A maioria dos métodos atuais tenta adivinhar onde está o problema, mas eles muitas vezes confundem coisas. Por exemplo, eles podem achar que alguém "pegando uma maçã" é um roubo, quando na verdade é apenas alguém comprando uma fruta. A aparência é a mesma, mas a intenção é diferente.

Aqui entra o LAS-VAD, o novo sistema proposto pelos pesquisadores. Vamos explicar como ele funciona usando analogias simples:

1. O "Detetive de Grupos" (Componentes Conectados de Anomalia)

Imagine que você tem um grande quebra-cabeça com milhares de peças (os quadros do vídeo). Como você não sabe qual peça pertence a qual cena, o LAS-VAD usa um truque inteligente.

Ele olha para as peças e diz: "Essas peças aqui se parecem muito entre si, então devem fazer parte da mesma história."

Como funciona: O sistema agrupa automaticamente os momentos do vídeo que têm o mesmo "sentido". Se 5 segundos mostram uma pessoa correndo, eles são colocados no mesmo grupo. Se os próximos 5 segundos mostram a mesma pessoa parando, eles vão para outro grupo.
A vantagem: Em vez de tentar adivinhar cada segundo isoladamente, o sistema aprende o significado de todo o "grupo" de segundos. Isso ajuda a entender o contexto sem precisar de um professor apontando cada detalhe.

2. O "Detetive de Intenção" (Raciocínio de Intenção)

Aqui está a parte mais genial. O sistema sabe que aparentar algo não significa ser algo.

O Cenário: Imagine duas pessoas correndo.
- Pessoa A: Correndo para pegar um ônibus (Normal).
- Pessoa B: Correndo para fugir da polícia (Anormal/Roubo).
- Para uma câmera comum, elas parecem idênticas.
A Solução do LAS-VAD: O sistema não olha apenas para a imagem. Ele analisa a velocidade e a aceleração (como se fosse ler a mente da pessoa).
- Ele cria um "modelo de intenção". Ele aprende que "roubar" geralmente envolve movimentos rápidos e bruscos, enquanto "pegar algo" é mais lento e calmo.
- É como ter um detetive que não apenas vê o suspeito, mas entende a motivação por trás do movimento.

3. O "Guia de Características" (Informação de Atributos)

Às vezes, o sistema precisa de uma "cola" extra para saber o que procurar.

A Ideia: O sistema usa uma Inteligência Artificial (como um Chatbot avançado) para criar uma lista de características para cada tipo de crime.
- Para "Explosão": O sistema sabe que deve procurar por "fogo", "fumaça grossa" e "vidros quebrados".
- Para "Briga": Ele procura por "mãos levantadas" e "movimentos rápidos".
O Resultado: O sistema usa essa lista como um mapa do tesouro. Quando ele vê fumaça e fogo, ele sabe: "Ah, isso é uma explosão!", mesmo que ninguém tenha dito isso antes.

O Resultado Final

Ao combinar esses três superpoderes:

Agrupar momentos semelhantes (Contexto).
Entender a intenção por trás do movimento (Lógica).
Usar uma lista de características visuais (Memória).

O LAS-VAD consegue encontrar crimes em vídeos longos com muito mais precisão do que os métodos antigos. Nos testes, ele superou todos os outros sistemas existentes, conseguindo distinguir melhor o que é um acidente real de um movimento estranho, e identificar exatamente quando o crime começa e termina, mesmo sem ter recebido um manual de instruções detalhado.

Em resumo: O LAS-VAD é como um detetive superinteligente que, mesmo sem ter visto o crime acontecer ao vivo, consegue olhar para as evidências, entender a intenção dos suspeitos e usar pistas visuais para reconstituir a história com precisão incrível.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

A Detecção de Anomalias em Vídeo (VAD) visa identificar intervalos temporais contendo eventos anômalos em vídeos não editados. No entanto, a abordagem tradicional depende de anotações densas no nível de quadro (frame-level), que são extremamente caras e trabalhosas de obter.

Para mitigar isso, a Detecção de Anomalias com Supervisão Fraca (WS-VAD) utiliza apenas anotações no nível do vídeo (ex: "este vídeo contém uma explosão"). Apesar dos avanços, a WS-VAD enfrenta duas limitações críticas:

Falta de Semântica: A ausência de anotações quadro a quadro dificulta que os modelos aprendam semânticas precisas de anomalias.
Ambiguidade Comportamental: Comportamentos normais e anômalos frequentemente compartilham características visuais semelhantes (ex: "pegar um objeto" vs. "roubar"). A distinção reside na intenção e na velocidade da ação, o que é difícil de capturar apenas com features visuais estáticas.

2. Metodologia: Framework LAS-VAD

Os autores propõem o LAS-VAD (Learning Anomaly Semantics for WS-VAD), um novo framework que integra mecanismos de Componentes Conectados de Anomalias (ACC) e Consciência de Intenção (IAM), além de utilizar atributos de anomalia para guiar a detecção.

O pipeline geral utiliza o modelo pré-treinado CLIP (Vision-Language Pre-training) para extrair features visuais e textuais.

A. Mecanismo de Componentes Conectados de Anomalias (ACC)

Para superar a falta de anotações quadro a quadro, o ACC agrupa quadros do vídeo em grupos semânticos distintos.

Funcionamento: Calcula a similaridade par a par entre os quadros.
Refinamento Multimodal: Para corrigir vieses na similaridade visual pura, utiliza a similaridade cruzada com o texto (categorias de anomalia) para reforçar ou enfraquecer conexões. Se dois quadros têm alta similaridade semântica com a mesma categoria de texto, sua conexão é fortalecida.
Agrupamento: O problema é transformado na detecção de componentes conectados em um grafo (usando busca em profundidade - DFS). Quadros no mesmo componente compartilham a mesma semântica.
Uso: Gera pseudo-rótulos no nível do quadro para supervisionar o aprendizado, permitindo que o modelo aprenda semânticas consistentes dentro de cada grupo.

B. Mecanismo de Consciência de Intenção (IAM)

Projetado para distinguir comportamentos visualmente similares, mas com intenções diferentes (ex: pegar algo rapidamente para roubar vs. pegar algo calmamente).

Features de Intenção: Extrai features de posição, velocidade e aceleração a partir das features visuais do vídeo.
Protótipos de Intenção: Mantém um banco de dados de protótipos semânticos para diferentes intenções.
Aprendizado Contrastivo Cruzado: Utiliza uma estratégia de aprendizado contrastivo (infoNCE loss) para separar frames com intenções diferentes (dificilmente distinguíveis visualmente) e agrupar frames com a mesma intenção. Isso força o modelo a aprender a "intenção" por trás da ação, não apenas a aparência.

C. Atributos de Anomalia

Reconhece que anomalias possuem atributos característicos distintos (ex: explosões envolvem chamas e fumaça).

Utiliza um LLM (Large Language Model) para gerar descrições textuais detalhadas dos atributos de cada categoria de anomalia.
Essas descrições são codificadas pelo encoder de texto do CLIP e fundidas com as features da categoria, enriquecendo a representação semântica para detecção mais precisa.

D. Arquitetura de Treinamento e Inferência

Features: Extrai features visuais com CLIP (ViT-B/16) e as processa com um Transformer Local e um GCN Global para capturar dependências temporais.
Perdas (Losses): O modelo é otimizado combinando:
- Perda de classificação binária (anômalo vs. normal).
- Perda de classificação multiclasse (categorias específicas).
- Perda de aprendizado contrastivo (IAM).
- Perda de regularização para garantir consistência entre previsões agnósticas e conscientes de categoria.
Inferência: Utiliza uma estratégia de dois passos com limiares para gerar instâncias de anomalia, aplicando supressão não máxima (NMS) para eliminar propostas redundantes.

3. Principais Contribuições

Framework LAS-VAD: Uma nova arquitetura para WS-VAD que integra raciocínio de intenção e componentes conectados.
Mecanismo ACC: Uma abordagem inovadora para agrupar quadros em grupos semânticos coerentes sem anotações quadro a quadro, gerando pseudo-rótulos eficazes.
Mecanismo IAM: Uma estratégia para distinguir comportamentos normais e anômalos visualmente similares baseando-se na intenção (velocidade, aceleração) e protótipos contrastivos.
Integração de Atributos: Uso de descrições textuais geradas por LLMs sobre atributos de anomalia para guiar a detecção.
Desempenho SOTA: Resultados superiores em benchmarks padrão, demonstrando eficácia tanto em detecção grosseira (coarse-grained) quanto fina (fine-grained).

4. Resultados Experimentais

Os experimentos foram realizados nos conjuntos de dados XD-Violence e UCF-Crime.

Detecção Grosseira (Coarse-grained):
- No XD-Violence, o LAS-VAD alcançou 89.96 AP (com features I3D) e 87.92 AP (com CLIP), superando o estado da arte (SOTA) anterior (LEC-VAD) em margens significativas.
- No UCF-Crime, alcançou 91.05 AUC (I3D) e 90.86 AUC (CLIP), superando métodos como $\pi$ -VAD e LEC-VAD.
Detecção Fina (Fine-grained):
- No XD-Violence, obteve um mAP médio (AVG) de 36.89, uma melhoria de ~5% sobre o LEC-VAD.
- No UCF-Crime, alcançou 15.62 mAP, superando o LEC-VAD em 15.2%.
Estudos de Ablação:
- A remoção de qualquer componente (ACC, IAM ou Atributos) resultou em queda de desempenho, confirmando a contribuição de cada módulo.
- O ACC superou significativamente o agrupamento por k-means, provando que a modelagem da estrutura de conectividade é superior à simples similaridade de features.
- A visualização de features mostrou que o LAS-VAD cria clusters mais compactos e separados por categoria.

5. Significância e Impacto

Este trabalho é significativo porque aborda a lacuna fundamental na WS-VAD: a dificuldade de aprender semânticas profundas e distinguir intenções sem supervisão densa.

Viabilidade Prática: Ao eliminar a necessidade de anotações quadro a quadro e focar em anotações de vídeo (mais baratas), torna a aplicação de VAD em cenários do mundo real (vigilância, manufatura) mais viável economicamente.
Inovação Conceitual: A introdução do "raciocínio de intenção" e o uso de "componentes conectados" para semântica oferecem novas direções para pesquisas futuras em aprendizado fraco supervisionado, indo além da simples extração de features visuais.
Robustez: O uso de multimodalidade (texto, áudio implícito via atributos, visão) e a integração com LLMs demonstram como modelos de linguagem podem ser alavancados para melhorar tarefas de visão computacional complexas.

Em resumo, o LAS-VAD estabelece um novo padrão de desempenho (SOTA) ao transformar a limitação da falta de anotações em uma oportunidade de aprender semânticas estruturadas e intenções comportamentais.