Autores originais: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

Publicado 2026-06-12

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é o dono de uma padaria que cria uma receita de bolo famosa e deliciosa. Para proteger seu negócio, você quer vender cópias dessa receita para milhares de clientes diferentes. No entanto, você precisa de uma maneira de provar que um bolo específico veio da sua padaria e não de um imitador, e também precisa impedir que os clientes troquem secretamente suas páginas de receita para criar uma "super-receita" que não pertence a ninguém.

Este artigo apresenta uma nova e inteligente maneira de "identificar" geradores de imagens de IA (especificamente modelos de Texto-para-Imagem) para resolver exatamente este problema. Aqui está a divisão em termos simples:

O Problema: O Ataque da "Troca de Receitas"

Atualmente, as empresas vendem modelos de IA para usuários. Para rastrear quem possui cada cópia, elas inserem um ID digital oculto (uma impressão digital) no modelo. Se alguém roubar o modelo, o proprietário pode escanear as imagens que ele cria e dizer: "Ah, esta imagem foi feita pela cópia roubada do Usuário nº 5".

A Falha: O artigo descobriu uma fraqueza importante. Se o Usuário A e o Usuário B roubarem suas cópias do modelo, eles podem simplesmente tirar a média das configurações de ambos.

Pense nisso como duas pessoas misturando seus ingredientes de receita secreta em uma tigela.
Nos métodos existentes, essa mistura cria uma nova receita funcional que ainda assa ótimos bolos, mas os IDs ocultos de "Usuário A" e "Usuário B" são lavados. O novo bolo não tem impressão digital, então o proprietário não consegue rastreá-lo. Isso é chamado de Ataque de Colusão.

A Solução: O "Agitador Mágico" (Anti-Colusão)

Os autores propõem um novo sistema que impede esse truque de mistura. Eles introduzem um módulo especial chamado Módulo de Normalização Personalizada (PNM). Pense nisso como um "agitador mágico" customizado construído dentro do cérebro da IA que ajusta como ela funciona com base em um ID único.

Veja como o sistema deles funciona em três etapas:

1. A Tinta Invisível (Impressão Digital)

Em vez de apenas mudar a receita ligeiramente, eles incorporam o ID do usuário diretamente na mecânica do "agitador mágico".

Como funciona: Eles treinam a IA para que, quando ela gerar uma imagem, o ID oculto seja tecido nos pixels.
O Resultado: Você pode olhar para qualquer imagem que a IA faz e extrair o ID para provar quem é o dono do modelo. O artigo afirma que isso funciona com 99,5% de precisão, mesmo se a imagem for cortada, comprimida ou editada.

2. O Truque "Anti-Colusão" (A Real Inovação)

Este é o maior avanço do artigo. Antes de entregar o modelo a um usuário, eles aplicam uma transformação especial chamada ACT (Transformação Anti-Colusão).

A Analogia: Imagine dar ao Usuário A uma receita onde o "sal" é medido em colheres de chá, mas o "açúcar" é medido em gramas. Você dá ao Usuário B uma receita onde o "sal" está em gramas e o "açúcar" está em colheres de chá.
A Pegadinha: Ambas as receitas ainda assam um bolo perfeito porque o agitador sabe traduzir as unidades internamente.
A Armadilha: Se o Usuário A e o Usuário B tentarem misturar suas receitas (tirar a média delas), as unidades ficam confusas. O resultado é uma receita que diz "adicione 500 gramas de sal" quando deveria ser colheres de chá. O bolo se torna uma mistura salgada e de gosto horrível.
A Alegação do Artigo: Se dois ou mais usuários tentarem coludir, o modelo resultante produz imagens de qualidade terrível (tão ruins que são inutilizáveis). Isso interrompe o ataque porque os atacantes não conseguem obter um modelo funcional sem a impressão digital.

3. O Treinamento de "Pior Caso"

Para garantir que a impressão digital sobreviva mesmo se alguém tentar ajustar o modelo (como o ajuste fino/fine-tuning), os autores treinaram a IA usando uma estratégia de "pior caso".

A Analogia: Imagine um segurança treinando praticando contra o atacante mais forte possível.
O Resultado: A impressão digital é tão profundamente incorporada que, mesmo se alguém tentar "podar" (cortar partes de) o modelo ou adicionar ruído a ele, o ID permanece legível.

Os Resultados

O artigo testou isso em geradores de imagens de IA populares (como o Stable Diffusion) e descobriu que:

Qualidade: As imagens geradas pelo modelo com impressão digital parecem tão boas quanto a original (sem artefatos estranhos ou borrados).
Segurança: Quando os atacantes tentaram misturar os modelos, a qualidade da imagem desabou (a pontuação "FID", que mede a qualidade, saltou de um bom 23 para um terrível 79).
Eficiência: O proprietário pode criar milhares de cópias únicas para diferentes usuários instantaneamente, sem precisar retreinar a IA do zero toda vez.

Resumo

Este artigo introduz uma "tranca" para modelos de IA. Se você tentar quebrar a tranca combinando duas chaves (colusão), a tranca não apenas permanece aberta; ela trava toda a máquina para que ela não consiga produzir nada útil. Ele protege os direitos do criador ao garantir que você não pode roubar um modelo, misturá-lo com outro e obter um produto funcional que esconda seus rastros.

Resumo Técnico: Fingerprinting Eficiente, Robusto e Anti-Colusão de Modelos de Difusão de Imagem

1. Definição do Problema

O rápido avanço dos modelos de difusão de Texto-para-Imagem (T2I) criou riscos significativos de propriedade intelectual (PI), particularmente em relação à redistribuição não autorizada de modelos. Embora os métodos de fingerprinting existentes incorporem identificadores específicos do usuário nos resultados do modelo para garantir a rastreabilidade, eles sofrem de uma vulnerabilidade crítica e anteriormente inexplorada: o ataque de colusão.

Em um ataque de colusão, múltiplos usuários maliciosos que possuem cópias distintas de modelos com fingerprinting podem combinar seus parâmetros do modelo (por exemplo, via média simples) para criar um novo modelo "coludido". Os métodos existentes falham em prevenir isso porque:

Interpolação de Parâmetros: Redes neurais profundas frequentemente exibem conectividade de modo, onde a interpolação linear entre modelos treinados de forma independente produz soluções funcionais.
Remoção de Custo Zero: Atacantes podem realizar a média dos parâmetros para efetivamente apagar os fingerprints únicos de cada usuário, preservando as capacidades de geração de imagens de alta qualidade do modelo.
Falta de Defesa Proativa: A pesquisa atual depende de atribuição pós-fato (identificar os colusores após o ocorrido) em vez de impedir a criação de um modelo coludido funcional.

2. Metodologia

O framework proposto introduz um sistema de fingerprinting robusto para modelos T2I que integra três componentes principais: um Módulo de Normalização Personalizada (PNM), uma estratégia de Otimização de Pior Caso e uma Transformação Anti-Colusão (ACT).

A. Visão Geral do Framework

O fluxo de trabalho consiste em três fases:

Fine-tuning: Um modelo T2I base (especificamente o decodificador VAE) é ajustado para incorporar os fingerprints.
Inicialização: Cópias únicas com fingerprinting são geradas para os usuários sem a necessidade de retreinamento.
Verificação: Os fingerprints são extraídos das imagens geradas para verificar a propriedade.

B. Módulo de Normalização Personalizada (PNM)

Em vez de modificar todo o modelo, o método insere um PNM leve no decodificador do Autoencoder Variacional (VAE).

Estrutura: O PNM segue uma estrutura Conv–Norm–Conv.
Mecanismo: Uma mensagem de fingerprint $m$ (uma string binária) é alimentada em duas redes de codificação ( $F_\gamma$ e $F_\beta$ ) para gerar parâmetros de escala ( $\gamma$ ) e deslocamento ( $\beta$ ). Esses parâmetros modulam a camada de normalização dentro do PNM.
Eficiência: Uma vez que os codificadores e o modelo base sejam treinados, novas cópias para usuários são criadas simplesmente gerando novos vetores $\gamma$ e $\beta$ a partir do fingerprint único do usuário, eliminando a necessidade de retreinamento.

C. Transformação Anti-Colusão (ACT)

Para derrotar a colusão proativamente, o método aplica uma transformação invariante à função e sem perdas aos parâmetros do PNM específicos de cada usuário. Essa transformação garante que, embora o modelo funcione corretamente para um único usuário, a combinação de parâmetros de diferentes usuários destrua a utilidade do modelo.
A ACT compreende três operações sequenciais:

Permutação por Canal (CP): Reorganiza os filtros e os parâmetros de normalização com base em uma função de permutação $\pi$ específica do usuário.
Escalonamento de Parâmetros (SC): Escala os kernels convolucionais e os parâmetros de normalização por vetores $\alpha$ de tal forma que o produto dos fatores de escala através da camada seja igual a 1, preservando a função de saída.
Inversão de Sinal (SF): Inverte os sinais de parâmetros específicos (um caso especial de escalonamento onde os fatores são $\{-1, 1\}$ ).

Base Teórica: Essas transformações quebram a "conectividade de modo" entre diferentes modelos de usuários. Embora cada modelo transformado produza saídas idênticas às de seu correspondente não transformado, seus parâmetros tornam-se quase ortogonais. Consequentemente, a interpolação linear (colusão) entre dois modelos protegidos pela ACT cai em uma região de alto custo (high-loss) no espaço de parâmetros, causando uma falha catastrófica na geração de imagens.

D. Otimização de Pior Caso

Para aumentar a robustez contra ataques ao nível do modelo (ex: fine-tuning, pruning), o objetivo de treinamento inclui uma perda de regularização de pior caso.

O modelo é otimizado para minimizar a perda de fingerprinting sob a suposição da pior perturbação de parâmetro ( $\delta^*$ ) dentro de uma vizinhança definida.
Isso é aproximado via um gradiente ascendente de etapa única no cálculo da perda, incentivando o modelo a convergir para um mínimo "plano" que é menos sensível a modificações de parâmetros.

3. Principais Contribuições

Defesa Proativa Anti-Colusão: O artigo apresenta o primeiro framework de fingerprinting para T2I explicitamente projetado para tornar os modelos coludidos inutilizáveis. Ao integrar a ACT, qualquer tentativa de fundir modelos resulta em uma degradação severa da qualidade da imagem (FID alto, PSNR baixo), neutralizando efetivamente o ataque.
Implantação Eficiente e Sem Retreinamento: A arquitetura PNM permite que desenvolvedores gerem cópias de modelos distintas e com fingerprint para milhares de usuários instantaneamente, apenas reparametrizando as camadas de normalização, sem o custo computacional de retreinar o modelo.
Robustez Aprimorada: A introdução de uma estratégia de otimização de pior caso melhora significativamente a resiliência contra ataques ao nível do modelo, incluindo fine-tuning e pruning, mantendo uma alta precisão de extração de fingerprint mesmo após perturbações significativas de parâmetros.
Avaliação Abrangente: O estudo fornece uma avaliação rigorosa em múltiplos datasets (COCO, ImageNet, MagicBrush, InstructPix2Pix) e tarefas (geração e edição), estabelecendo novos baselines para segurança contra colusão.

4. Resultados Experimentais

O método foi avaliado nos modelos Stable Diffusion v2 e InstructPix2Pix.

Fidelidade e Qualidade: O método proposto mantém alta qualidade de imagem. No dataset COCO, o score FID (24.03) é comparável aos métodos baseados em VAE de estado da arte (ex: Per. Norm., Sta. Sig.) e significativamente melhor que os métodos de watermarking baseados em U-Net. A diferença visual entre imagens com e sem fingerprint é negligenciável.
Precisão de Extração de Fingerprint: O método alcança uma Precisão de Bit de >99,5% em todos os datasets e tarefas, superando os métodos existentes.
Robustez a Ataques:
- Nível de Imagem: O método permanece robusto contra ruído Gaussiano, desfoque, recorte e compressão JPEG, especialmente quando uma camada de aumento de ruído é usada durante o treinamento.
- Nível de Modelo: Sob ataques de fine-tuning (10.000 passos), a Precisão de Bit permanece acima de 90%, superando significativamente os concorrentes que caem abaixo de 70%.
Desempenho Anti-Colusão:
- Colusão de 2 Partes: Quando dois usuários fazem a média de seus modelos, os métodos existentes mantêm alta qualidade de imagem (FID ~24), mas perdem a validade do fingerprint (TPR cai para ~0,4). Em contraste, o método proposto com ACT causa um surto no FID para 79,51 e uma queda drástica no PSNR, tornando o modelo coludido inutilizável.
- Colusão de Múltiplas Partes: À medida que o número de colusores aumenta (até 20), os métodos existentes mantêm alta fidelidade. O método proposto causa uma degradação contínua na qualidade (PSNR cai para ~11 dB para 10 colusores), impedindo a síntese de um modelo funcional.
- Ataques Não Lineares: O método permanece eficaz contra estratégias de colusão não lineares avançadas (Seleção aleatória, Média de potência, Valor absoluto máximo), onde todas as estratégias testadas falham em preservar tanto a qualidade da imagem quanto a integridade do fingerprint.

5. Significância e Alegações

O artigo afirma abordar uma lacuna fundamental na segurança de modelos generativos: a vulnerabilidade à colusão. Os autores argumentam que, enquanto o fingerprinting de mídia tradicional depende de códigos de rastreamento de traidores para identificar atacantes após uma violação, o fingerprinting de modelos generativos requer uma abordagem proativa.

A significância deste trabalho reside na mudança de paradigma da atribuição para a dissuasão. Ao garantir que o próprio ato de colusão destrua a utilidade do modelo, o método efetivamente previne a redistribuição não autorizada. Os autores enfatizam que isso é alcançado sem comprometer a eficiência da distribuição do modelo (sem retreinamento) ou a qualidade do conteúdo gerado para usuários legítimos.

O trabalho conclui que a combinação de embedding baseado em PNM, otimização de pior caso e ACT fornece uma solução robusta e escalável para proteger a propriedade intelectual de modelos T2I em ambientes comerciais e licenciados.

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models