EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : La "Bibliothèque Partagée" et le Voleur Invisible

Imaginez que plusieurs entreprises (les clients) veulent apprendre à un grand robot à parler (un Modèle de Langage), mais elles ne veulent pas partager leurs secrets commerciaux (leurs données). Elles utilisent donc une méthode appelée Apprentissage Fédéré.

C'est comme si chaque entreprise envoyait ses leçons à un professeur central (le Serveur), qui mélange tout pour créer un livre de connaissances géant, puis renvoie ce livre amélioré à chaque entreprise.

Le problème : Si une entreprise malhonnête vole ce livre de connaissances pour le vendre à un concurrent, comment savoir qui l'a volé ?

Aujourd'hui, tous les livres sont identiques. Si vous trouvez un livre volé, vous ne pouvez pas dire : "Ah, c'est l'entreprise A qui l'a pris". C'est comme si tout le monde portait le même uniforme : impossible de repérer le traître.
De plus, le propriétaire du modèle ne peut pas ouvrir le livre pour voir à l'intérieur (il n'a que l'interface de chat, pas le code source). C'est ce qu'on appelle une vérification en "boîte noire".

💡 La Solution : EmbTracker, le "Tatouage Invisible"

Les auteurs proposent EmbTracker, un système qui permet d'ajouter une empreinte digitale unique à chaque livre envoyé à chaque entreprise, sans que l'entreprise ne s'en rende compte.

Voici comment cela fonctionne, avec une analogie culinaire :

1. Le Chef et les Ingrédients (Le Serveur et les Mots)

Le serveur est le chef cuisinier. Il a une immense liste d'ingrédients (le vocabulaire du modèle).

L'idée géniale : Au lieu de changer toute la recette (ce qui serait trop long et risqué), le chef modifie subtilement la façon dont il utilise un seul ingrédient spécifique pour chaque client.
Imaginez que pour l'entreprise A, le mot "Pomme" est toujours associé à une saveur "Piment". Pour l'entreprise B, le mot "Pomme" est associé à une saveur "Citron".
Ces changements sont si petits qu'ils ne gâchent pas le goût du plat principal (la performance du modèle reste excellente), mais ils sont indélébiles.

2. La Création des Signatures (Génération des Déclencheurs)

Avant d'envoyer le livre, le serveur crée une "signature" unique pour chaque entreprise.

Il prend l'identité de l'entreprise (son nom, son ID) et la transforme en un mot-clé secret (un "déclencheur").
Il modifie légèrement la "mémoire" du modèle pour que, si l'on demande au modèle de parler de ce mot-clé secret, il réagisse d'une manière très spécifique (comme une poignée de main secrète).

3. L'Envoi et le Vol (Distribution et Fuite)

Le serveur envoie le modèle à l'entreprise A. Ce modèle contient la "signature Piment".

Si l'entreprise A trahit la confiance et vend le modèle, le propriétaire du modèle peut tester le modèle volé.
Il pose une question avec le mot-clé secret de l'entreprise A. Si le modèle répond "Piment" (la signature), c'est prouvé : c'est l'entreprise A qui a fui !
Si le modèle ne réagit pas, ce n'est pas elle.

🛡️ Pourquoi c'est génial ? (Les Avantages)

C'est invisible (Boîte Noire) : Vous n'avez pas besoin de voir le code interne du modèle pour vérifier. Vous posez juste une question et regardez la réponse. C'est comme tester une pièce de monnaie en la faisant tourner, sans avoir besoin de fondre le métal.
C'est rapide et léger : Le serveur ne doit pas réapprendre tout le modèle pour chaque entreprise. Il change juste quelques "lettres" dans son dictionnaire interne. C'est comme changer l'étiquette sur une bouteille de vin sans changer le vin à l'intérieur.
C'est robuste : Même si le voleur essaie de "nettoyer" le modèle (en le réentraînant, en le compressant ou en enlevant des parties), la signature reste. C'est comme un tatouage qui résiste à la pluie et au soleil.
C'est universel : Ça marche avec n'importe quel type de modèle de langage, même les plus récents et les plus complexes.

🏁 En Résumé

EmbTracker est comme un système de sécurité par empreinte digitale pour les intelligences artificielles collaboratives.

Avant : Si un modèle fuyait, on ne savait pas qui était le coupable.
Aujourd'hui : Chaque client reçoit une version du modèle avec un "code secret" unique. Si le modèle est volé, on peut immédiatement pointer du doigt le voleur spécifique, même sans avoir accès aux secrets du modèle.

C'est une solution intelligente, discrète et efficace pour protéger la propriété intellectuelle dans un monde où l'on partage l'intelligence sans partager les données.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le Federated Learning (FL) pour les modèles de langage (FedLM) permet d'entraîner des modèles collaborativement sans partager les données brutes, préservant ainsi la confidentialité. Cependant, cette architecture introduit une vulnérabilité critique : tout client non fiable peut récupérer une instance du modèle fonctionnel et la fuiter (leak) pour un profit personnel.

Les défis majeurs identifiés sont :

Vérifiabilité en boîte noire (Black-box) : Dans un scénario de fuite réel, le propriétaire du modèle n'a souvent accès qu'à l'API du modèle suspect, sans pouvoir inspecter ses paramètres internes (boîte blanche).
Traçabilité individuelle : Les schémas de filigrane (watermarking) existants fournissent souvent une preuve de propriété au niveau du groupe (tous les clients partagent le même filigrane), mais ne permettent pas d'identifier quel client spécifique a fui le modèle.
Compatibilité avec le PEFT : Les modèles de langage modernes utilisent des techniques de Fine-Tuning Efficace en Paramètres (PEFT) comme LoRA. Les méthodes de filigrane doivent être compatibles avec ces mises à jour légères sans nécessiter de réentraînement complet par client.
Absence de coopération : Les clients malveillants ne coopéreront pas avec le processus de vérification.

2. Méthodologie : EmbTracker

EmbTracker est un cadre de filigrane noir, traçable et côté serveur, conçu spécifiquement pour les FedLM. Son principe central repose sur l'empoisonnement des vecteurs d'incorporation de mots (word embeddings) pour créer des signatures d'identité uniques.

Le processus se déroule en quatre étapes clés :

A. Génération de Déclencheurs (Trigger Generation)

Chaque client génère une signature numérique unique basée sur sa clé privée.
Le serveur utilise une fonction de hachage (ex: SHA256) sur cette signature pour mapper l'identité du client à un ou plusieurs mots spécifiques (déclencheurs) dans le vocabulaire du modèle.
Cela crée un ensemble de déclencheurs uniques pour chaque client ( $Tr_k$ ).

B. Injection du Filigrane (Watermark Injection)

Contrairement aux méthodes précédentes qui nécessitent une intervention côté client, EmbTracker opère entièrement côté serveur :

Entraînement Universel (Étape 1) : Le serveur entraîne une fois un vecteur d'incorporation universel ( $W_w$ ) en utilisant un jeu de données empoisonné avec un déclencheur universel ( $Tr_u$ ). Seuls les poids de l'incorporation de ce mot sont mis à jour ; le reste du modèle est gelé.
Remplacement Spécifique au Client (Étape 2) : Avant de distribuer le modèle global à un client $k$ $k$ , le serveur remplace l'incorporation du mot déclencheur spécifique à ce client ( $Tr_k$ $T r_{k}$ ) par le vecteur $W_w$ $W_{w}$ appris.
- Résultat : Chaque client reçoit un modèle où son mot déclencheur unique est lié à une sortie cible spécifique, mais le client ignore cette modification.
Entraînement Local et Agrégation (Étapes 3 & 4) : Les clients effectuent leur entraînement local (souvent via LoRA ou Prefix Tuning). Comme la couche d'incorporation n'est pas mise à jour lors du PEFT, le filigrane reste intact. Le serveur agrège les mises à jour et renforce le filigrane en réappliquant le remplacement d'incorporation avant la prochaine distribution.

C. Vérification et Traçabilité

En cas de découverte d'un modèle suspect, le serveur (ou une autorité de certification) interroge le modèle en boîte noire avec les déclencheurs de chaque client.

Si le modèle répond correctement au déclencheur du client $k$ (taux de vérification élevé) et échoue pour les autres, le client $k$ est identifié comme le fuyard.
La traçabilité est garantie par la non-collision des filigranes entre clients.

3. Contributions Clés

Premier cadre de traçabilité côté serveur pour FedLM : EmbTracker est la première solution permettant l'attribution de fuites de modèles au niveau du client sans aucune modification ou coopération côté client.
Injection basée sur les embeddings : Utilisation de l'espace des vecteurs d'incorporation comme support à haute capacité et faible interférence. Cela permet d'injecter des filigranes avec une surcharge négligeable et une compatibilité totale avec les méthodes PEFT (LoRA, Prefix Tuning).
Vérifiabilité en boîte noire : Le système fonctionne uniquement via des requêtes API, répondant aux contraintes réelles de déploiement où les poids internes sont inaccessibles.

4. Résultats Expérimentaux

Les expériences ont été menées sur divers modèles (BERT, Llama-2, Qwen2.5-VL) et tâches (classification, génération, VQA) dans des environnements FL IID et Non-IID.

Traçabilité : EmbTracker atteint des taux de vérification (VR) proches de 100% pour l'identification correcte du client fuyard. L'intervalle de vérification (écart entre la confiance de vérification propre et la fuite vers les autres clients) est très large, minimisant les collisions.
Fidélité (Performance) : L'impact sur la tâche principale est négligeable. La baisse de précision (ACC) est généralement comprise entre 1% et 2%, voire nulle dans certains cas.
Robustesse : Le filigrane résiste efficacement à :
- Le Fine-tuning supplémentaire (attaques de suppression).
- L'élagage (Pruning) jusqu'à 30% des paramètres.
- La quantification (INT8, FP16).
- Les attaques par bruit et les tentatives de réécriture (overwriting).
Efficacité Temporelle : Contrairement à des méthodes concurrentes comme TraMark qui nécessitent un réentraînement par client, EmbTracker ne nécessite qu'un seul entraînement initial côté serveur et des remplacements de vecteurs rapides, offrant une meilleure évolutivité avec le nombre de clients.

5. Signification et Impact

EmbTracker comble une lacune critique dans la protection de la propriété intellectuelle (IP) des modèles de langage fédérés.

Dissuasion : En permettant d'identifier formellement le client responsable d'une fuite, le système dissuade les comportements malveillants.
Déploiement Réaliste : Sa nature "boîte noire" et son absence de dépendance à la coopération des clients le rendent applicable dans des scénarios industriels réels où les clients peuvent être hostiles ou où les modèles sont distribués via des API.
Extensibilité : La méthode est applicable non seulement aux modèles de langage purs, mais aussi aux modèles Vision-Language (VLM), car elle cible la couche d'incorporation textuelle commune à ces architectures.

En résumé, EmbTracker offre une solution robuste, efficace et pratique pour sécuriser les écosystèmes de modèles de langage fédérés contre le vol et la redistribution non autorisée.