Language-guided Open-world Video Anomaly Detection under Weak Supervision

Este artigo apresenta o LaGoVAD, um novo paradigma e modelo de detecção de anomalias em vídeos que, sob supervisão fraca e guiado por linguagem natural, permite a adaptação dinâmica das definições de anomalias em cenários de mundo aberto, apoiado pelo lançamento do PreVAD, o maior e mais diversificado conjunto de dados de anomalias em vídeos até o momento.

Zihao Liu, Xiaoyu Wu, Jianqin Wu, Xuxu Wang, Linlin Yang

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um guarda de segurança em um grande shopping. Sua tarefa é vigiar as câmeras e avisar se algo "estranho" está acontecendo.

No mundo antigo da inteligência artificial (IA), os guardas eram treinados de uma forma muito rígida: eles aprendiam a reconhecer apenas três tipos de problemas. Se alguém corresse, era normal. Se alguém quebrasse uma vitrine, era um problema. Se alguém gritasse, era um problema.

Mas o mundo real é caótico e muda o tempo todo.

  • Cenário 1: Em um dia normal, uma pessoa correndo no corredor é apenas alguém atrasado para o trabalho.
  • Cenário 2: Durante uma epidemia de gripe, essa mesma pessoa correndo e sem máscara pode ser um risco de saúde (anormal).
  • Cenário 3: Em um banco, uma pessoa com um capacete é normal (talvez um entregador), mas em um museu, o mesmo capacete pode ser suspeito.

Os sistemas antigos falhavam aqui. Eles ficavam confusos porque o "significado" de anormal mudava dependendo do lugar e da hora. Eles não conseguiam entender que a regra mudou, apenas que o comportamento era diferente.

A Solução: O Guarda que "Ouve" as Instruções

Os autores deste trabalho (publicado na conferência ICLR 2026) criaram um novo sistema chamado LaGoVAD. Pense nele como um guarda de segurança que não apenas olha as câmeras, mas também lê um bilhete escrito pelo gerente antes de começar o turno.

Esse "bilhete" é a linguagem natural.

  • Se o gerente escreve: "Hoje, qualquer pessoa sem máscara correndo é um problema", o sistema entende e vigia isso.
  • Se o gerente muda o bilhete para: "Hoje, apenas pessoas quebrando vidros são problemas", o sistema ignora as pessoas correndo e foca apenas nos vidros.

Isso resolve o problema do "mundo aberto", onde as regras mudam a qualquer momento.

Como eles ensinaram o sistema a ser tão inteligente?

Para treinar esse "guarda", eles precisaram de duas coisas principais:

1. O "Livro de Receitas" Gigante (Dataset PreVAD)

Antes, os sistemas de IA eram treinados com vídeos de crimes e acidentes, mas sem explicações de por que aquilo era ruim. Era como tentar ensinar alguém a cozinhar mostrando apenas pratos queimados, sem dizer o nome dos ingredientes ou o passo a passo.

Os pesquisadores criaram o PreVAD, o maior banco de dados do mundo para isso. Eles coletaram mais de 35.000 vídeos (de acidentes, brigas, roubos, etc.) e, em vez de apenas rotulá-los como "ruim", eles escreveram descrições detalhadas do que estava acontecendo.

  • Analogia: É como ter um livro de receitas onde, em vez de apenas dizer "bolo queimado", o livro diz: "O bolo queimou porque a temperatura estava muito alta por 10 minutos". Isso permite que o sistema entenda a lógica do erro, não apenas a imagem.

2. O Treinamento com "Atalhos" e "Desafios" (Técnicas de Regularização)

Ensinar uma IA a entender regras que mudam é difícil. Ela pode ficar "preguiçosa" e decorar apenas os exemplos que viu, em vez de aprender a regra. Para evitar isso, eles usaram duas estratégias criativas:

  • Síntese de Vídeo Dinâmica (O "Montador de Filmes"):
    Imagine que você está treinando um guarda para detectar "vidros quebrados". A maioria dos vídeos de treinamento mostra o vidro quebrando logo no início. O guarda aprende a olhar só no começo.
    Para corrigir isso, o sistema pega pedaços de vídeos normais e de vídeos de acidentes e monta novos vídeos aleatoriamente, misturando tempos e durações. É como se o treinador dissesse: "Aqui, o vidro quebra no meio do vídeo. Ali, quebra no final. E aqui, o vidro quebra, mas a pessoa demora 5 minutos para chegar". Isso força o sistema a aprender a regra, não o momento.

  • Mineração de Negativos Difíceis (O "Treino de Sobrevivência"):
    Às vezes, a linha entre "normal" e "anormal" é tênue. Um homem correndo pode ser um atleta ou um ladrão. O sistema aprende a olhar para os casos mais confusos (os "negativos difíceis") e a distinguir as diferenças sutis entre eles, como um treinador que faz o atleta correr com pesos extras para ficar mais forte.

O Resultado?

Quando testaram esse novo sistema em 7 bancos de dados diferentes (simulando cenários reais como trânsito, crimes e vigilância), o LaGoVAD venceu todos os outros métodos.

  • O que ele faz de diferente? Ele consegue detectar coisas que nunca viu antes, desde que você lhe dê uma descrição em texto.
  • Por que é importante? Porque o mundo real não é estático. O que é crime hoje pode não ser amanhã, e o que é normal em um hospital pode ser suspeito em um aeroporto. Este sistema permite que a IA se adapte a essas mudanças apenas lendo uma nova instrução, sem precisar ser reprogramada do zero.

Em resumo: Eles criaram um "olho" que não apenas vê, mas compreende instruções. Se você mudar a regra do jogo, o sistema muda a forma de jogar instantaneamente.