Auteurs originaux : Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

Publié 2026-06-12

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes le propriétaire d'une boulangerie qui crée une recette de gâteau célèbre et délicieuse. Pour protéger votre entreprise, vous voulez vendre des copies de cette recette à des milliers de clients différents. Cependant, vous avez besoin d'un moyen de prouver qu'un gâteau spécifique provient bien de votre boulangerie et non d'un imitateur, et vous devez empêcher les clients de secrètement échanger leurs pages de recettes pour créer une « super-recette » qui n'appartient à personne.

Ce document présente une nouvelle façon ingénieuse de « tatouer » les générateurs d'images par IA (spécifiquement les modèles Text-to-Image) pour résoudre exactement ce problème. Voici la décomposition en termes simples :

Le Problème : L'attaque par « Échange de Recettes »

Actuellement, les entreprises vendent des modèles d'IA aux utilisateurs. Pour suivre qui possède quelle copie, elles intègrent un identifiant numérique caché (une empreinte digitale) dans le modèle. Si quelqu'un vole le modèle, le propriétaire peut scanner les images qu'il crée et dire : « Ah, cette image a été fabriquée par la copie volée de l'Utilisateur n°5. »

La faille : Le papier a découvert une faiblesse majeure. Si l'Utilisateur A et l'Utilisateur B volent tous deux leurs copies respectives du modèle, ils peuvent simplement faire la moyenne de leurs paramètres ensemble.

Imaginez que deux personnes mélangent leurs ingrédients de recettes secrètes dans un bol.
Dans les méthodes existantes, ce mélange crée une nouvelle recette fonctionnelle qui produit toujours de bons gâteaux, mais les identifiants cachés « Utilisateur A » et « Utilisateur B » sont effacés. Le nouveau gâteau n'a plus d'empreinte digitale, donc le propriétaire ne peut pas remonter jusqu'à la source. C'est ce qu'on appelle une Attaque par Collusion.

La Solution : Le « Mélangeur Magique » (Anti-Collusion)

Les auteurs proposent un nouveau système qui empêche ce tour de mélange. Ils introduisent un module spécial appelé Module de Normalisation Personnalisé (PNM). Considérez cela comme un « mélangeur magique » personnalisé intégré au cerveau de l'IA qui ajuste son fonctionnement en fonction d'un identifiant unique.

Voici comment leur système fonctionne en trois étapes :

1. L'Encre Invisible (Empreinte Digitale)

Au lieu de simplement modifier légèrement la recette, ils intègrent l'identifiant de l'utilisateur directement dans la mécanique même du « mélangeur magique ».

Comment ça marche : Ils entraînent l'IA pour que, lorsqu'elle génère une image, l'identifiant caché soit tissé dans les pixels.
Le résultat : Vous pouvez regarder n'importe quelle image produite par l'IA et extraire l'identifiant pour prouver qui possède le modèle. Le papier affirme que cela fonctionne avec une précision de 99,5 %, même si l'image est recadrée, compressée ou modifiée.

2. Le Tour de l'« Anti-Collusion » (La Réelle Innovation)

C'est la plus grande percée de ce papier. Avant de donner le modèle à un utilisateur, ils appliquent une transformation spéciale appelée ACT (Transformation Anti-Collusion).

L'analogie : Imaginez donner à l'Utilisateur A une recette où le « sel » est mesuré en cuillères à café, mais le « sucre » est mesé en grammes. Vous donnez à l'Utilisateur B une recette où le « sel » est en grammes et le « sucre » en cuillères à café.
Le piège : Les deux recettes produisent toujours un gâteau parfait car le mélangeur sait traduire les unités en interne.
Le piège : Si l'Utilisateur A et l'Utilisateur B tentent de mélanger leurs recettes (faire la moyenne), les unités deviennent confuses. Le résultat est une recette qui dit « ajouter 500 grammes de sel » alors qu'il faudrait des cuillères à café. Le gâteau devient un désastre immangeable et trop salé.
La revendication du papier : Si deux utilisateurs ou plus tentent de colluder, le modèle résultant produit des images de très mauvaise qualité (si mauvaises qu'elles sont inutilisables). Cela stoppe l'attaque car les attaquants ne peuvent pas obtenir un modèle fonctionnel sans l'empreinte digitale.

3. L'Entraînement du « Pire Scénario »

Pour s'assurer que l'empreinte survit même si quelqu'un essaie de modifier le modèle (comme un ajustement fin ou fine-tuning), les auteurs ont entraîné l'IA en utilisant une stratégie de « pire cas ».

L'analogie : Imaginez un garde du corps qui s'entraîne en pratiquant contre l'attaquant le plus fort possible.
Le résultat : L'empreinte est si profondément ancrée que même si quelqu'un essaie de « élaguer » (couper des parties) le modèle ou d'ajouter du bruit, l'identifiant reste lisible.

Les Résultats

Le papier a testé cela sur des générateurs d'images par IA populaires (comme Stable Diffusion) et a constaté que :

Qualité : Les images générées par le modèle empreinté sont tout aussi bonnes que l'original (pas d'artefacts flous ou étranges).
Sécurité : Lorsque des attaquants ont tenté de mélanger les modèles, la qualité des images s'est effondrée (le score FID, qui mesure la qualité, est passé d'un bon 23 à un terrible 79).
Efficacité : Le propriétaire peut créer instantanément des milliers de copies uniques pour différents utilisateurs sans avoir à réentraîner l'IA de zéro à chaque fois.

Résumé

Ce papier introduit un « verrou » pour les modèles d'IA. Si vous essayez de briser le verrou en combinant deux clés (collusion), le verrou ne se contente pas de rester ouvert ; il bloque toute la machine pour qu'elle ne puisse plus rien produire d'utile. Il protège les droits du créateur en garantissant que vous ne pouvez pas voler un modèle, le mélanger avec un autre, et obtenir un produit fonctionnel qui masquerait vos traces.

Résumé Technique : Empreinte Numérique Efficace, Robuste et Anti-Collusion pour les Modèles de Diffusion d'Images

1. Énoncé du Problème

L'avancement rapide des modèles de diffusion de type Texte-vers-Image (T2I) a créé des risques importants pour la propriété intellectuelle (PI), particulièrement concernant la redistribution non autorisée de modèles. Bien que les méthodes d'empreinte numérique existantes intègrent des identifiants spécifiques à l'utilisateur dans les sorties des modèles pour assurer la traçabilité, elles souffrent d'une vulnérabilité critique, jusqu'ici inexplorée : l'attaque par collusion.

Dans une attaque par collusion, plusieurs utilisateurs malveillants possédant des copies distinctes de modèles empreints peuvent combiner leurs paramètres de modèle (par exemple, via une simple moyenne) pour créer un nouveau modèle « colludé ». Les méthodes existantes ne parviennent pas à empêcher cela car :

Interpolation de Paramètres : Les réseaux de neurones profonds présentent souvent une connectivité de mode, où l'interpolation linéaire entre des modèles entraînés indépendamment produit des solutions fonctionnelles.
Suppression à Coût Nul : Les attaquants peuvent moyenner les paramètres pour effacer efficacement les empreintes numériques uniques des utilisateurs tout en préservant les capacités de génération d'images de haute qualité du modèle.
Absence de Défense Proactive : La recherche actuelle repose sur l'attribution post-hoc (identifier les collusions après coup) plutôt que sur la prévention de la création d'un modèle colludé fonctionnel.

2. Méthodologie

Le cadre proposé introduit un système d'empreinte numérique robuste pour les modèles T2I qui intègre trois composantes clés : un Module de Normalisation Personnalisé (PNM), une stratégie d'Optimisation du Pire Cas, et une Transformation Anti-Collusion (ACT).

A. Aperçu du Cadre

Le flux de travail se compose de trois phases :

Affinage (Fine-tuning) : Un modèle T2I de base (spécifiquement le décodeur VAE) est affiné pour intégrer les empreintes numériques.
Initialisation : Des copies empreintes uniques sont générées pour les utilisateurs sans réentraînement.
Vérification : Les empreintes sont extraites des images générées pour vérifier la propriété.

B. Module de Normalisation Personnalisé (PNM)

Au lieu de modifier l'ensemble du modèle, la méthode insère un PNM léger dans le décodeur de l'Auto-encodeur Variationnel (VAE).

Structure : Le PNM suit une structure Conv–Norm–Conv.
Mécanisme : Un message d'empreinte $m$ (une chaîne binaire) est injecté dans deux réseaux d'encodage ( $F_\gamma$ et $F_\beta$ ) pour générer des paramètres d'échelle ( $\gamma$ ) et de décalage ( $\beta$ ). Ces paramètres modulent la couche de normalisation au sein du PNM.
Efficacité : Une fois les encodeurs et le modèle de base entraînés, de nouvelles copies pour les utilisateurs sont créées en générant simplement de nouveaux vecteurs $\gamma$ et $\beta$ à partir de l'empreinte numérique unique de l'utilisateur, éliminant ainsi le besoin de réentraînement.

C. Transformation Anti-Collusion (ACT)

Pour contrer proactivement la collusion, la méthode applique une transformation sans perte et invariante de la fonction aux paramètres du PNM spécifiques à chaque utilisateur. Cette transformation garantit que, bien que le modèle fonctionne correctement pour un utilisateur unique, la combinaison de paramètres provenant de différents utilisateurs détruit l'utilité du modèle.
L'ACT comprend trois opérations séquentielles :

Permutation par Canal (CP) : Réorganise les filtres et les paramètres de normalisation basés sur une fonction de permutation $\pi$ spécifique à l'utilisateur.
Mise à l'Échelle des Paramètres (SC) : Met à l'échelle les noyaux de convolution et les paramètres de normalisation par des vecteurs $\alpha$ tels que le produit des facteurs d'échelle à travers la couche soit égal à 1, préservant ainsi la fonction de sortie.
Inversion de Signe (SF) : Inverse les signes de paramètres spécifiques (un cas particulier de mise à l'échelle où les facteurs sont $\{-1, 1\}$ ).

Base Théorique : Ces transformations brisent la « connectivité de mode » entre les différents modèles d'utilisateurs. Bien que chaque modèle transformé produise des sorties identiques à son homologue non transformé, leurs paramètres deviennent presque orthogonaux. Par conséquent, l'interpolation linéaire (collusion) entre deux modèles protégés par l'ACT aboutit dans une région de perte élevée de l'espace des paramètres, provoquant un échec catastrophique de la génération d'images.

D. Optimisation du Pire Cas

Pour renforcer la robustesse contre les attaques au niveau du modèle (ex: affinage, élagage), l'objectif d'entraînement inclut une perte de régularisation du pire cas.

Le modèle est optimisé pour minimiser la perte d'empreinte numérique sous l'hypothèse de la pire perturbation de paramètre ( $\delta^*$ ) dans un voisinage défini.
Cela est approximé via une ascension de gradient en une seule étape sur la perte, encourageant le modèle à converger vers un minimum « plat » qui est moins sensible aux modifications de paramètres.

3. Principales Contributions

Défense Proactive Anti-Collusion : Cet article présente le premier cadre d'empreinte numérique T2I explicitement conçu pour rendre les modèles colludés inutilisables. En intégrant l'ACT, toute tentative de fusion de modèles entraîne une dégradation sévère de la qualité d'image (FID élevé, PSNR faible), neutralisant efficacement l'attaque.
Déploiement Efficace sans Réentraînement : L'architecture PNM permet aux développeurs de générer instantanément des copies de modèles distinctes et empreintes pour des milliers d'utilisateurs en reparamétrant les couches de normalisation, sans le coût computationnel d'un réentraînement.
Robustesse Accrue : L'introduction d'une stratégie d'optimisation du pire cas améliore considérablement la résilience face aux attaques au niveau du modèle, notamment l'affinement et l'élagage, maintenant une précision d'extraction d'empreinte élevée même après des perturbations de paramètres significatives.
Évaluation Complète : L'étude fournit une évaluation rigoureuse sur plusieurs jeux de données (COCO, ImageNet, MagicBrush, InstructPix2Pix) et tâches (génération et édition), établissant de nouvelles références pour la sécurité contre la collusion.

4. Résultats Expérimentaux

La méthode a été évaluée sur les modèles Stable Diffusion v2 et InstructPix2Pix.

Fidélité et Qualité : La méthode proposée maintient une haute qualité d'image. Sur le jeu de données COCO, le score FID (24,03) est comparable aux méthodes basées sur le VAE de pointe (ex: Per. Norm., Sta. Sig.) et nettement meilleur que les méthodes de tatouage basées sur l'U-Net. La différence visuelle entre les images avec et sans empreinte est négligeable.
Précision d'Extraction de l'Empreinte : La méthode atteint une précision de bit > 99,5 % sur tous les jeux de données et tâches, surpassant les méthodes existantes.
Robustesse aux Attaques :
- Niveau Image : La méthode reste robuste contre le bruit gaussien, le flou, le recadrage et la compression JPEG, surtout lorsqu'une augmentation par couche de bruit est utilisée pendant l'entraînement.
- Niveau Modèle : Sous des attaques d'affinement (10 000 étapes), la précision de bit reste supérieure à 90 %, surpassant nettement les concurrents qui chutent en dessous de 70 %.
Performance Anti-Collusion :
- Collusion à 2 Parties : Lorsque deux utilisateurs moyennent leurs modèles, les méthodes existantes conservent une haute qualité d'image (FID ~24) mais perdent la validité de l'empreinte (le TPR chute à ~0,4). En revanche, la méthode proposée avec l'ACT provoque une explosion de l'FID à 79,51 et une chute drastique du PSNR, rendant le modèle colludé inutilisable.
- Collusion Multi-Parties : À mesure que le nombre de colludeurs augmente (jusqu'à 20), les méthodes existantes maintiennent une haute fidélité. La méthode proposée provoque une dégradation continue de la qualité (le PSNR tombe à ~11 dB pour 10 colludeurs), empêant la synthèse d'un modèle fonctionnel.
- Attaques Non-Linéaires : La méthode reste efficace contre les stratégies de collusion non-linéaires avancées (sélection aléatoire, moyenne de puissance, valeur absolue maximale), où toutes les stratégies testées échouent à préserver à la fois la qualité d'image et l'intégrité de l'empreinte.

5. Signification et Revendications

L'article affirme traiter une lacune fondamentale de la sécurité des modèles génératifs : la vulnérabilité à la collusion. Les auteurs soutiennent que si le tatouage numérique traditionnel repose sur des codes de traçage de traîtres pour identifier les attaquants après une violation, le tatouage de modèle génératif nécessite une approche proactive.

La signification de ce travail réside dans le passage du paradigage de l'attribution à celui de la dissuasion. En garantissant que l'acte de collusion détruit l'utilité du modèle, la méthode empêche efficacement la redistribution non autorisée. Cela est accompli sans compromettre l'efficacité de la distribution des modèles (pas de réentraînement) ni la qualité du contenu généré pour les utilisateurs légitimes.

Le travail conclut que la combinaison de l'intégration par PNM, de l'optimisation du pire cas et de l'ACT fournit une solution robuste et évolutive pour protéger la propriété intellectuelle des modèles T2I dans des contextes commerciaux et sous licence.

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models