FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

O artigo propõe o método FiLo++, uma abordagem para detecção e localização de anomalias em cenários de zero-shot e few-shot que supera as limitações das descrições genéricas e do emparelhamento simples de patches ao integrar descrições textuais de alto nível geradas por LLMs com um mecanismo de localização deformável baseado no Grounding DINO.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um inspetor de qualidade em uma fábrica de brinquedos ou em um hospital. Sua tarefa é encontrar defeitos: uma peça quebrada, um arranhão ou uma mancha estranha.

O problema é que, na vida real, os defeitos são infinitos e imprevisíveis. Você não pode treinar um robô para ver todos os tipos de defeitos possíveis, porque eles nunca aconteceram antes (o famoso "efeito frio" ou cold start).

Aqui entra o FiLo++, uma nova tecnologia inteligente que funciona como um detetive superpoderoso que não precisa de anos de treinamento para aprender o que é um defeito. Ele usa dois superpoderes principais:

1. O "Tradutor de Detalhes" (FusDes)

Antes, os robôs usavam descrições genéricas e chatas, como: "Isso é normal" ou "Isso é estranho". É como tentar achar uma agulha no palheiro dizendo apenas "procure algo que não seja palha".

O FiLo++ usa uma Inteligência Artificial de Linguagem (como o GPT) para agir como um especialista que escreve descrições ricas e detalhadas.

  • A Analogia: Em vez de dizer "tem um defeito na madeira", o sistema gera descrições como: "Uma foto de madeira com um rasgo profundo no canto superior esquerdo" ou "Madeira com manchas de ferrugem no centro".
  • O Pulo do Gato: Ele não usa apenas descrições fixas. Ele cria um "filtro em tempo real" que descarta as descrições que não fazem sentido para a imagem específica, garantindo que o robô esteja olhando para o que realmente importa. É como ter um assistente que filtra o ruído e te dá apenas a pista exata que você precisa.

2. O "Caçador de Formas" (DefLoc)

Achou o defeito? Agora, onde ele está exatamente?
Muitos sistemas antigos tentam cortar a imagem em quadradinhos (como um mosaico) e comparar cada quadradinho com o texto. O problema? Um defeito pode ser longo e fino, ou grande e redondo, e os quadradinhos fixos não conseguem acompanhar a forma.

O FiLo++ usa uma técnica chamada Localização Deformável:

  • A Analogia: Imagine que você está procurando um objeto em uma foto usando uma lupa.
    • Os sistemas antigos usam uma lupa de vidro quadrado e rígido. Se o defeito for redondo, a lupa não encaixa bem.
    • O FiLo++ usa uma lupa de borracha elástica (Deformable Convolution). Se o defeito for um risco longo, a lupa estica. Se for um ponto, ela encolhe. Ela se molda perfeitamente à forma do problema.
  • O Guia: Antes de usar essa lupa elástica, o sistema usa um "olho de águia" (chamado Grounding DINO) para ignorar o fundo da imagem (como a mesa ou o chão) e focar apenas no objeto. Depois, ele usa a posição exata do objeto para refinar a busca, como dizer: "Procure defeitos no lado esquerdo da peça".

O Poder do "Pouco Aprendizado" (Few-Shot)

O FiLo++ também é incrível quando você só tem uma ou poucas fotos de um produto novo para mostrar a ele.

  • A Analogia: Se você mostrar apenas uma foto de um novo tipo de parafuso, o FiLo++ usa a localização inicial para dizer: "Ok, vou focar minha busca apenas na área onde o parafuso está, ignorando o resto da mesa". Isso evita que ele confunda sombras ou texturas do fundo com defeitos.

Resumo da Ópera

O FiLo++ é como um detetive que:

  1. Lê o manual de instruções (usando IA de linguagem) para saber exatamente como os defeitos podem parecer, em vez de usar termos vagos.
  2. Usa uma lupa elástica que se adapta a qualquer formato de defeito, seja um risco fino ou uma mancha grande.
  3. Ignora o que não importa (o fundo da imagem) para não se distrair.

Resultado: Ele encontra defeitos que outros robôs perdem, mesmo sem ter visto aquele tipo de defeito antes, e faz isso com uma precisão cirúrgica, seja em fábricas de eletrônicos ou até em exames de ressonância magnética no hospital. É a união perfeita entre a inteligência da linguagem humana e a precisão da visão de máquina.