Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive especializado em encontrar documentos falsificados. Seu trabalho é olhar para um papel, um contrato ou uma nota fiscal e dizer: "Isso foi alterado!"

O problema é que, para treinar um "detetive de computador" (uma Inteligência Artificial) para fazer isso, você precisa de milhares de exemplos de documentos falsos. Mas, na vida real, documentos falsos são raros, valiosos e difíceis de conseguir.

Aqui entra a ideia genial deste paper: em vez de esperar que alguém falsifique documentos, vamos ensinar o computador a falsificá-los sozinho, mas de um jeito tão perfeito que nem o falsificador humano mais esperto conseguiria distinguir.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Falsificador de Baixa Qualidade"

Antes, os pesquisadores tentavam criar documentos falsos usando regras simples de computador (como um "copiar e colar" automático).

A analogia: Imagine que você está tentando colar um recorte de jornal em outro jornal para mudar uma frase. Se você usar uma tesoura ruim e uma cola velha, o recorte vai ficar torto, com bordas brancas visíveis ou a fonte (letra) vai ser diferente.
O resultado: O computador treinado com esses recortes ruins aprende a detectar apenas essas "falhas óbvias" (como uma borda branca). Quando ele vê um falso real, feito por um humano com cuidado, ele não percebe nada, porque o falso real não tem aquelas bordas brancas. O computador fica "burro" para o mundo real.

2. A Solução: Dois "Mestres de Obras" Virtuais

Os autores criaram um sistema novo que usa dois "ajudantes" (redes neurais) para garantir que a falsificação seja perfeita. Pense neles como dois inspetores de qualidade trabalhando juntos:

O Primeiro Ajuda: O "Olho Clínico" (Similaridade)

O que ele faz: Antes de colar um pedaço de texto em outro lugar, ele olha para o fundo. Ele pergunta: "Esse pedaço de texto tem a mesma cor, a mesma fonte, o mesmo desfoque e o mesmo brilho do lugar onde vou colar?"
A analogia: É como tentar combinar um tijolo novo em uma parede antiga. Se o tijolo novo for de uma cor diferente ou tiver uma textura diferente, vai ficar óbvio. Esse "Olho Clínico" garante que o tijolo novo seja idêntico aos vizinhos. Ele usa uma técnica chamada Contrastive Learning (Aprendizado Contrastivo), que é como treinar alguém a dizer: "Essas duas fotos são da mesma família" ou "Essas duas são de famílias diferentes".

O Segundo Ajuda: O "Cortador Preciso" (Qualidade da Caixa)

O que ele faz: Ele garante que, ao cortar o pedaço de texto para colar, a tesoura não corte o meio de uma letra (deixando um "A" sem o topo) e não inclua parte da letra do vizinho.
A analogia: Imagine cortar uma foto de um rosto. Se você cortar mal, pode cortar a orelha ou deixar um pedaço do cabelo do vizinho. Esse "Cortador Preciso" garante que o recorte seja limpo, perfeito e não deixe nenhum "cabelo" ou "orelha" estranha nas bordas.

3. O Processo de Criação (A Fábrica de Falsos)

Com esses dois ajudantes, o sistema cria uma "Fábrica de Falsificações":

Ele pega um documento real.
Escolhe um pedaço para alterar (pode ser apagar um texto, colar um novo, ou mudar um número).
O Olho Clínico procura um pedaço de texto em outro lugar que combine perfeitamente com o fundo.
O Cortador Preciso garante que o recorte seja limpo.
Ele faz a colagem.
Se ficar perfeito, o documento entra no banco de dados de treinamento. Se ficar com defeito, ele é jogado fora.

O resultado? Uma fábrica que produziu 2,8 milhões de documentos falsos de altíssima qualidade, onde as alterações são tão sutis que parecem reais.

4. O Resultado: O Detetive de Elite

Quando eles treinaram os computadores (os "detetives") usando esses documentos falsos perfeitos, aconteceu algo mágico:

Os computadores aprenderam a detectar padrões reais de falsificação, e não apenas erros de colagem.
Quando testados em documentos falsos reais (feitos por humanos), eles ficaram muito mais precisos do que os treinados com os métodos antigos.

Resumo da Ópera

Antes, a gente ensinava o computador a detectar falsos usando "falsos de brinquedo" (cheios de defeitos óbvios). Agora, a gente ensina o computador a detectar falsos usando "falsos de cinema" (tão perfeitos que enganam até o olho humano).

Ao usar esses dois "ajudantes virtuais" (um para combinar a aparência e outro para garantir o corte perfeito), os autores criaram a melhor "escola de treinamento" possível para detectar fraudes em documentos, tornando os sistemas de segurança muito mais inteligentes e confiáveis.

Each language version is independently generated for its own context, not a direct translation.

Título: Aproveitando o Aprendizado Contrastivo para um Pipeline de Geração de Dados de Documentos Manipulados Guiado por Similaridade

1. O Problema

A detecção de texto adulterado em imagens de documentos é uma tarefa crítica devido à presença frequente de informações sensíveis, mas enfrenta um obstáculo fundamental: a escassez de dados.

Limitação de Dados Reais: Conjuntos de dados públicos de grandes escala com adulterações reais (feitas por humanos) são inexistentes ou muito pequenos (ex: FindItAgain, RTM têm menos de 4.000 documentos), o que impede o pré-treinamento eficaz de modelos de visão computacional.
Falhas nos Métodos Atuais: Trabalhos anteriores tentaram gerar documentos adulterados sinteticamente usando pipelines baseados em regras. No entanto, esses métodos produzem manipulações de baixa qualidade visual, com artefatos óbvios (como fontes incompatíveis, desalinhamento, cortes nos caracteres ou cores de fundo inconsistentes).
Consequência: Modelos treinados nesses dados sintéticos ruins tendem a "aprender atalhos" (overfitting) para detectar apenas esses artefatos visíveis, falhando ao generalizar para adulterações reais, que são frequentemente de alta qualidade e difíceis de detectar.

2. Metodologia Proposta

Os autores propõem um novo framework para gerar imagens de documentos adulterados de alta qualidade e alta diversidade, simulando cenários do mundo real. A abordagem baseia-se em dois componentes principais (redes auxiliares) que guiam um pipeline de geração:

A. Rede de Similaridade de Recortes ( $F_\theta$ ) - Aprendizado Contrastivo

Objetivo: Comparar dois recortes de imagem (crops) e avaliar sua similaridade visual para garantir que a região de origem e a região de destino (onde a adulteração ocorrerá) sejam visualmente consistentes.
Técnica: Utiliza Aprendizado Contrastivo.
- Pares Positivos: Recortes adjacentes na mesma linha de um documento (que compartilham fonte, tamanho, cor e alinhamento) são tratados como pares positivos.
- Pares Negativos: Recortes com o mesmo número de caracteres, mas em linhas diferentes (distância vertical grande) ou com proporções diferentes, são tratados como negativos. Inclui também "negativos difíceis" gerados por transformações visuais aleatórias.
Arquitetura: Uma rede leve baseada em ConvNeXt com cabeças de incorporação desacopladas para texto (foreground) e fundo (background), permitindo comparar tanto texto com texto quanto texto com áreas em branco.

B. Rede de Avaliação de Qualidade da Caixa Delimitadora ( $G_\theta$ )

Objetivo: Garantir que as caixas delimitadoras (bounding boxes) dos recortes selecionados não cortem caracteres nem incluam partes de caracteres vizinhos, o que geraria artefatos detectáveis.
Técnica: Aprendizado supervisionado binário.
Entrada: A rede recebe não apenas o recorte, mas também suas bordas imediatas (faixas superior, inferior, esquerda e direita) para analisar o contexto e detectar se a caixa está "bem definida".
Vantagem: Substitui algoritmos clássicos de estimativa de primeiro plano (como Sauvola), sendo até 10x mais rápida.

C. Pipeline de Geração de Dados
O pipeline utiliza $F_\theta$ e $G_\theta$ para executar cinco tipos de adulteração:

Copy-move: Copiar e colar texto dentro da mesma imagem.
Splicing: Copiar texto de uma imagem e inserir em outra.
Insertion: Adicionar novo texto renderizado.
Inpainting: Remover texto preenchendo o fundo.
Coverage: Cobrir texto com um patch de fundo similar.

O processo seleciona regiões alvo, verifica a qualidade da caixa ( $G_\theta$ ), busca candidatos no banco de dados que maximizem a similaridade visual ( $F_\theta$ ) e realiza a substituição ou renderização.

3. Principais Contribuições

Duas Redes Auxiliares: Introdução de $F_\theta$ (treinada com aprendizado contrastivo para similaridade visual) e $G_\theta$ (para avaliação de qualidade de caixas delimitadoras).
Framework de Geração Unificado: Um pipeline capaz de produzir adulterações diversificadas e de alta qualidade, cobrindo todos os tipos comuns de manipulação de documentos.
Conjunto de Dados TDoc-2.8M: Geração e liberação pública de um dataset massivo contendo aproximadamente 2,8 milhões de imagens de documentos adulterados, superando em escala os conjuntos existentes.
Protocolo de Avaliação Justo (Syn2Real): Demonstração de que modelos treinados com seus dados superam consistentemente os baselines em cenários zero-shot e fine-tuning em dados reais.

4. Resultados e Avaliação

Os autores treinaram cinco modelos de detecção de adulteração (DTD, ASC-Former, CAT-Net, PSCC-Net, FFDN) usando dados gerados por: (a) seu método, (b) o método DocTamper [25] e (c) o método [6].

Desempenho Zero-Shot: Modelos treinados com o pipeline proposto superaram significativamente os baselines em três conjuntos de dados reais (RTM, FindItAgain, FindIt).
- Exemplo: O modelo FFDN viu um aumento de 125,7% na pontuação F1 de pixel no dataset FindItAgain ao usar os dados gerados pelos autores em comparação com o DocTamper.
- O ganho foi mais pronunciado em datasets desenhados para refletir cenários realistas (RTM, FindItAgain).
Avaliação Pós-Fine-Tuning: Mesmo após ajuste fino em dados reais, os modelos pré-treinados com o método proposto mantiveram o melhor desempenho médio, indicando um ponto de partida mais robusto.
Estudo de Ablação: A remoção de $F_\theta$ ou $G_\theta$ resultou em queda de desempenho, confirmando que tanto a similaridade visual quanto a qualidade geométrica das caixas são essenciais para a eficácia do treinamento.
Generalização: Os modelos treinados generalizaram bem para adulterações geradas por IA (usando FLUX-Text e AnyText), mesmo sem ter visto esses exemplos durante o pré-treinamento.

5. Significado e Impacto

Este trabalho aborda a lacuna crítica entre a detecção de adulteração em imagens naturais e em documentos. Ao demonstrar que a qualidade dos dados sintéticos é mais importante do que apenas a quantidade, o paper estabelece um novo padrão para a geração de dados em forense de documentos.

Reprodutibilidade: O código, os scripts de treinamento, os pesos dos modelos e o dataset TDoc-2.8M foram disponibilizados publicamente.
Aplicabilidade: A metodologia permite criar grandes volumes de dados de treinamento realistas, essenciais para desenvolver detectores robustos contra fraudes documentais no mundo real, onde as adulterações são frequentemente feitas por humanos com ferramentas sofisticadas.

Em resumo, o artigo prova que um pipeline guiado por aprendizado de máquina (contrastivo e supervisionado) para a seleção de dados sintéticos é superior a abordagens baseadas em regras, resultando em modelos de detecção significativamente mais precisos e generalizáveis.