Language-guided Open-world Video Anomaly Detection under Weak Supervision

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um guarda de segurança em um grande shopping. Sua tarefa é vigiar as câmeras e avisar se algo "estranho" está acontecendo.

No mundo antigo da inteligência artificial (IA), os guardas eram treinados de uma forma muito rígida: eles aprendiam a reconhecer apenas três tipos de problemas. Se alguém corresse, era normal. Se alguém quebrasse uma vitrine, era um problema. Se alguém gritasse, era um problema.

Mas o mundo real é caótico e muda o tempo todo.

Cenário 1: Em um dia normal, uma pessoa correndo no corredor é apenas alguém atrasado para o trabalho.
Cenário 2: Durante uma epidemia de gripe, essa mesma pessoa correndo e sem máscara pode ser um risco de saúde (anormal).
Cenário 3: Em um banco, uma pessoa com um capacete é normal (talvez um entregador), mas em um museu, o mesmo capacete pode ser suspeito.

Os sistemas antigos falhavam aqui. Eles ficavam confusos porque o "significado" de anormal mudava dependendo do lugar e da hora. Eles não conseguiam entender que a regra mudou, apenas que o comportamento era diferente.

A Solução: O Guarda que "Ouve" as Instruções

Os autores deste trabalho (publicado na conferência ICLR 2026) criaram um novo sistema chamado LaGoVAD. Pense nele como um guarda de segurança que não apenas olha as câmeras, mas também lê um bilhete escrito pelo gerente antes de começar o turno.

Esse "bilhete" é a linguagem natural.

Se o gerente escreve: "Hoje, qualquer pessoa sem máscara correndo é um problema", o sistema entende e vigia isso.
Se o gerente muda o bilhete para: "Hoje, apenas pessoas quebrando vidros são problemas", o sistema ignora as pessoas correndo e foca apenas nos vidros.

Isso resolve o problema do "mundo aberto", onde as regras mudam a qualquer momento.

Como eles ensinaram o sistema a ser tão inteligente?

Para treinar esse "guarda", eles precisaram de duas coisas principais:

1. O "Livro de Receitas" Gigante (Dataset PreVAD)

Antes, os sistemas de IA eram treinados com vídeos de crimes e acidentes, mas sem explicações de por que aquilo era ruim. Era como tentar ensinar alguém a cozinhar mostrando apenas pratos queimados, sem dizer o nome dos ingredientes ou o passo a passo.

Os pesquisadores criaram o PreVAD, o maior banco de dados do mundo para isso. Eles coletaram mais de 35.000 vídeos (de acidentes, brigas, roubos, etc.) e, em vez de apenas rotulá-los como "ruim", eles escreveram descrições detalhadas do que estava acontecendo.

Analogia: É como ter um livro de receitas onde, em vez de apenas dizer "bolo queimado", o livro diz: "O bolo queimou porque a temperatura estava muito alta por 10 minutos". Isso permite que o sistema entenda a lógica do erro, não apenas a imagem.

2. O Treinamento com "Atalhos" e "Desafios" (Técnicas de Regularização)

Ensinar uma IA a entender regras que mudam é difícil. Ela pode ficar "preguiçosa" e decorar apenas os exemplos que viu, em vez de aprender a regra. Para evitar isso, eles usaram duas estratégias criativas:

Síntese de Vídeo Dinâmica (O "Montador de Filmes"):
Imagine que você está treinando um guarda para detectar "vidros quebrados". A maioria dos vídeos de treinamento mostra o vidro quebrando logo no início. O guarda aprende a olhar só no começo.
Para corrigir isso, o sistema pega pedaços de vídeos normais e de vídeos de acidentes e monta novos vídeos aleatoriamente, misturando tempos e durações. É como se o treinador dissesse: "Aqui, o vidro quebra no meio do vídeo. Ali, quebra no final. E aqui, o vidro quebra, mas a pessoa demora 5 minutos para chegar". Isso força o sistema a aprender a regra, não o momento.
Mineração de Negativos Difíceis (O "Treino de Sobrevivência"):
Às vezes, a linha entre "normal" e "anormal" é tênue. Um homem correndo pode ser um atleta ou um ladrão. O sistema aprende a olhar para os casos mais confusos (os "negativos difíceis") e a distinguir as diferenças sutis entre eles, como um treinador que faz o atleta correr com pesos extras para ficar mais forte.

O Resultado?

Quando testaram esse novo sistema em 7 bancos de dados diferentes (simulando cenários reais como trânsito, crimes e vigilância), o LaGoVAD venceu todos os outros métodos.

O que ele faz de diferente? Ele consegue detectar coisas que nunca viu antes, desde que você lhe dê uma descrição em texto.
Por que é importante? Porque o mundo real não é estático. O que é crime hoje pode não ser amanhã, e o que é normal em um hospital pode ser suspeito em um aeroporto. Este sistema permite que a IA se adapte a essas mudanças apenas lendo uma nova instrução, sem precisar ser reprogramada do zero.

Em resumo: Eles criaram um "olho" que não apenas vê, mas compreende instruções. Se você mudar a regra do jogo, o sistema muda a forma de jogar instantaneamente.

Each language version is independently generated for its own context, not a direct translation.

Título: Detecção de Anomalias em Vídeo em Mundo Aberto Guiada por Linguagem sob Supervisão Fraca

1. O Problema: Deriva de Conceito em Cenários de Mundo Aberto

A Detecção de Anomalias em Vídeo (VAD) tradicional visa identificar quadros que desviam de padrões esperados. No entanto, a maioria dos métodos existentes opera em cenários de "conjunto fechado" (closed-set), assumindo que a definição do que é "anormal" é fixa e invariável durante o treinamento e o teste.

O artigo identifica uma lacuna crítica em cenários de mundo aberto: a definição de anomalia pode mudar dinamicamente dependendo do contexto, políticas ou requisitos do usuário.

Exemplo: Caminhar na rua é normal em um dataset de crimes urbanos, mas pode ser considerado anormal em uma via expressa (freeway) ou em uma biblioteca.
Desafio Técnico: Isso configura um problema de Deriva de Conceito (Concept Drift), onde a distribuição condicional de probabilidade muda entre o treinamento e o teste ( $P_{train}(Y|V) \neq P_{test}(Y|V)$ ). Métodos atuais falham porque não conseguem adaptar-se a novas definições de anomalia sem retreinamento ou não permitem que o usuário especifique o que deve ser detectado em tempo de inferência.

2. Metodologia: LaGoVAD

Os autores propõem um novo paradigma chamado LaGoVAD (Language-guided Open-world Video Anomaly Detector). A ideia central é modelar a definição de anomalia não como uma constante, mas como uma variável estocástica ( $Z$ ) que condiciona a previsão.

A. Paradigma Teórico
Em vez de aprender um mapeamento $\Phi: V \to Y$ (Vídeo para Rótulo), o modelo aprende $\Phi: (V, Z) \to Y$ , onde:

$V$ : O vídeo de entrada.
$Z$ : A definição da anomalia (fornecida pelo usuário via linguagem natural).
$Y$ : O rótulo de anomalia.
Isso elimina a deriva de conceito, pois a probabilidade $P(Y|V, Z)$ permanece invariável, desde que a definição $Z$ seja explicitamente fornecida.

B. Arquitetura do Modelo
O modelo utiliza uma abordagem multimodal baseada em CLIP:

Codificadores: Um encoder visual (CLIP Image + Encoder Temporal Transformer) e um encoder de texto (CLIP Text).
Fusão: Um módulo de fusão baseado em Transformer combina as características visuais e textuais.
Cabeças de Saída: Uma cabeça de detecção binária (score de anomalia) e uma cabeça de classificação multiclasse.

C. Estratégias de Regularização (Para evitar Overfitting)
Como o espaço multimodal é complexo e os dados escassos, o modelo emprega duas estratégias inovadoras:

Síntese Dinâmica de Vídeo (Dynamic Video Synthesis):
- Problema: Vídeos reais de anomalias muitas vezes têm uma proporção alta de eventos anormais (devido a cortes na internet), o que não reflete a realidade onde anomalias são breves.
- Solução: O módulo sintetiza vídeos dinamicamente concatenando segmentos semanticamente similares (vizinhos mais próximos) para criar vídeos longos com proporções variáveis de anomalia. Isso gera pseudo-rótulos temporais precisos para treinar o modelo a entender a duração relativa dos eventos.
Aprendizado Contrastivo com Mineração de Negativos Duros (Hard Negative Mining):
- Problema: A fronteira entre "normal" e "anormal" é ambígua.
- Solução: O modelo agrega características de quadros para criar representações de "fundo" (partes normais de um vídeo anormal) e as trata como exemplos negativos difíceis. Um loss contrastivo força o modelo a alinhar finamente as descrições textuais com os eventos visuais específicos, melhorando a robustez.

3. Contribuições Principais

Novo Paradigma de Mundo Aberto: Reformulação do problema de VAD para lidar explicitamente com a deriva de conceito, permitindo que a definição de anomalia seja dinâmica e guiada por linguagem natural.
Modelo LaGoVAD: Implementação prática desse paradigma com duas estratégias de regularização (síntese de vídeo e mineração de negativos) que mitigam o overfitting em espaços multimodais complexos.
Dataset PreVAD:
- Criação do PreVAD (Pre-training Video Anomaly Dataset), o maior e mais diversificado dataset de anomalias em vídeo até a data.
- Estatísticas: 35.279 vídeos (11.979 anormais), cobrindo 7 categorias de alto nível e 35 subcategorias (violência, acidentes, roubo, etc.).
- Inovação: Diferente de datasets anteriores que usam apenas rótulos de categoria, o PreVAD inclui descrições textuais detalhadas das anomalias, geradas por uma pipeline híbrida (IA + Humanos), permitindo o treinamento supervisionado fraco com definições semânticas ricas.
Avaliação Zero-Shot: Demonstração de que o modelo pode generalizar para cenários não vistos e adaptar-se a novas definições sem retreinamento.

4. Resultados Experimentais

Os autores avaliaram o LaGoVAD sob dois protocolos de zero-shot em 7 datasets distintos (UCF-Crime, XD-Violence, MSAD, UBNormal, DoTA, TAD, LAD):

Protocolo 1 (Desempenho Geral): O LaGoVAD superou o estado da arte (SOTA) em todos os datasets, incluindo métodos de vocabulário aberto e generalização de domínio.
- No dataset XD-Violence, houve uma melhoria de 20% na detecção e 32% na classificação em comparação com métodos anteriores.
- Superou métodos baseados em LLMs (como Qwen2-VL e HolmesVAU) em precisão e localização temporal, com custo computacional significativamente menor.
Protocolo 2 (Robustez à Deriva de Conceito): O modelo foi testado com definições de anomalia variáveis no mesmo dataset.
- O LaGoVAD alcançou o melhor desempenho (drift@5), demonstrando capacidade de adaptar-se quando a definição de "anormal" muda (ex: considerar "briga" como anormal em um contexto, mas não em outro).
- Métodos tradicionais falharam em ajustar os scores quando a definição mudava, mantendo o mesmo comportamento independentemente do prompt.
Estudos de Ablação: A remoção de qualquer componente (síntese dinâmica, mineração de negativos ou o guia de linguagem) resultou em queda significativa de desempenho, validando a eficácia de cada parte do sistema.

5. Significado e Impacto

Este trabalho representa um avanço fundamental na área de segurança e vigilância inteligente:

Flexibilidade Operacional: Permite que operadores de sistemas de vigilância definam o que é uma ameaça em tempo real usando linguagem natural (ex: "detectar pessoas sem máscara" durante uma pandemia, ou "detectar veículos estacionados" em uma via proibida), sem precisar re-treinar o modelo.
Resolução de Deriva de Conceito: Oferece uma solução teórica e prática para o problema de mudança de distribuição de rótulos, que é um dos maiores obstáculos na aplicação de IA no mundo real.
Recurso de Dados: A liberação do PreVAD e do código estabelece um novo padrão para a comunidade, fornecendo dados massivos e semanticamente ricos para treinar modelos de visão computacional mais robustos e generalizáveis.

Em resumo, o LaGoVAD transforma a detecção de anomalias de um sistema rígido e pré-definido para um sistema adaptativo, guiado pelo usuário e capaz de operar em ambientes dinâmicos e imprevisíveis.

Language-guided Open-world Video Anomaly Detection under Weak Supervision

A Solução: O Guarda que "Ouve" as Instruções

Como eles ensinaram o sistema a ser tão inteligente?

1. O "Livro de Receitas" Gigante (Dataset PreVAD)

2. O Treinamento com "Atalhos" e "Desafios" (Técnicas de Regularização)

O Resultado?

Título: Detecção de Anomalias em Vídeo em Mundo Aberto Guiada por Linguagem sob Supervisão Fraca

1. O Problema: Deriva de Conceito em Cenários de Mundo Aberto

2. Metodologia: LaGoVAD

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization