Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article, comme si on en discutait autour d'un café.

🕵️‍♂️ Le Problème : Qui a écrit ce code ?

Imaginez que vous trouvez une lettre manuscrite. Si vous êtes un expert en écriture, vous pouvez peut-être dire : "Tiens, c'est l'écriture de Paul, il a toujours ces petits 't' barrés d'une manière particulière."

Aujourd'hui, les intelligences artificielles (comme ChatGPT, Claude, DeepSeek, etc.) écrivent du code informatique. Le problème, c'est que si deux IA doivent résoudre le même problème mathématique (par exemple, trier une liste de nombres), elles vont souvent trouver la même solution logique. C'est comme si Paul et Marie écrivaient tous les deux la même phrase : "Il fait beau aujourd'hui".

Mais, tout comme les humains, chaque IA a sa propre "patte" ou son "style".

L'une utilise des noms de variables très longs et descriptifs.
L'autre aime les phrases courtes et directes.
L'une met des commentaires (des notes explicatives) partout, l'autre n'en met pas.
L'une préfère utiliser des parenthèses d'une certaine manière, l'autre non.

Jusqu'à présent, il était très difficile de distinguer quelle IA avait écrit quel bout de code, car les chercheurs se concentraient surtout sur la différence entre "code humain" et "code machine". Mais maintenant, il faut savoir quelle machine a fait le travail.

🧩 La Solution : Le "Dé-mélangeur" (DCAN)

Les auteurs de cet article (une équipe de l'Université du Sichuan) ont créé un outil génial appelé DCAN. Pour comprendre comment ça marche, utilisons une analogie culinaire.

Imaginez que vous avez un gâteau.

L'ingrédient principal (Le Gâteau) : C'est la recette de base. Peu importe qui la cuisine, un gâteau au chocolat doit avoir du chocolat, de la farine et des œufs. C'est la logique du code (ce que le code doit faire). C'est ce que tous les modèles partagent.
La touche du Chef (Le Style) : C'est la façon dont le chef a mélangé les œufs, la forme du gâteau, ou la façon dont il a décoré le dessus. C'est le style de l'IA (la façon dont elle écrit).

Le problème, c'est que dans le code, le "gâteau" (la logique) est si gros qu'il cache la "touche du chef" (le style).

DCAN est comme un super-chef qui sait séparer les ingrédients :

Il prend le code.
Il dit : "Attends, cette partie c'est juste la recette de base (logique), je la mets de côté."
Il dit : "Et cette autre partie, c'est la signature unique de l'artiste (le style), je la garde !"

En isolant cette "touche du chef", l'outil peut dire avec une grande précision : "Ah oui, ce gâteau a été fait par le Chef Claude, pas par le Chef ChatGPT !"

📚 Ce qu'ils ont fait pour prouver leur théorie

Pour s'assurer que leur méthode fonctionnait vraiment, ils n'ont pas juste deviné. Ils ont construit une énorme bibliothèque de preuves :

Le Grand Concours : Ils ont demandé à 4 IA célèbres (DeepSeek, Claude, Qwen, ChatGPT) de résoudre 2 800 problèmes différents (des exercices de logique et de programmation).
Les 4 Langues : Ils ont fait ça en 4 langues de programmation différentes (Python, Java, C, Go).
Les 2 Modes : Ils ont demandé aux IA de coder de deux façons :
- Mode "Sec" : Juste le code, sans explications.
- Mode "Pédagogue" : Le code avec des commentaires explicatifs (comme un prof qui explique sa démarche).

Au total, ils ont créé 91 804 exemples de code. C'est énorme ! C'est la première fois qu'un tel jeu de données existe pour ce type de recherche.

🎯 Les Résultats : Ça marche !

Les résultats sont impressionnants :

Précision : Leur outil arrive à identifier l'IA responsable dans 98% des cas quand il y a des commentaires, et 93% des cas même sans commentaires. C'est bien mieux que les anciennes méthodes.
Le secret des commentaires : Ils ont découvert que les commentaires (les notes écrites par l'IA) sont comme une empreinte digitale très forte. La façon dont une IA explique son code est souvent plus unique que la façon dont elle écrit le code lui-même.
La difficulté aide : Curieusement, plus le problème est difficile, plus l'IA a de "liberté" pour choisir sa propre méthode, et plus il est facile de l'identifier ! Sur les problèmes faciles, tout le monde fait la même chose, donc c'est dur de distinguer.

💡 Pourquoi est-ce important ?

C'est un peu comme la police scientifique pour le code informatique.

Sécurité : Si un virus est créé par une IA, on peut savoir laquelle l'a fait pour bloquer ses futures créations.
Responsabilité : Si un code contient une erreur grave, on peut savoir quelle IA l'a généré pour améliorer ce modèle.
Propriété intellectuelle : On peut vérifier si un code a été généré par une IA payante ou gratuite, ce qui est important pour les entreprises.

En résumé

Les chercheurs ont inventé un "dé-mélangeur" magique qui sépare la logique (ce qui est pareil pour tout le monde) du style (ce qui est unique à chaque IA). Grâce à une base de données géante, ils ont prouvé que chaque IA a une signature invisible dans son écriture, un peu comme une empreinte digitale, et que leur outil peut la lire avec une précision incroyable.

C'est une avancée majeure pour comprendre et contrôler l'ère des intelligences artificielles qui écrivent du code.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Attribution de Code par LLM (LLMCSA)

L'adoption massive des Modèles de Langage (LLM) pour la génération de code automatisée pose de nouveaux défis en matière de gouvernance logicielle, de sécurité et de propriété intellectuelle. Bien que la recherche existante se concentre principalement sur la distinction binaire entre le code humain et le code généré par une IA, de nombreux scénarios pratiques (tri des vulnérabilités, enquêtes d'incidents, audits de licence) nécessitent d'identifier quel modèle spécifique (ex: ChatGPT, Claude, DeepSeek, Qwen) a produit un extrait de code donné.

Ce problème, nommé LLM Code Source Attribution (LLMCSA), est intrinsèquement difficile car :

Pour une même tâche algorithmique, différents LLMs adoptent souvent des stratégies de solution similaires et respectent les mêmes règles syntaxiques, rendant les sorties superficiellement identiques.
Les différences réelles (empreintes génératives) résident dans des variations subtiles de style, de structure, de conventions de nommage et de préférences au niveau des tokens, qui sont souvent masquées par la sémantique fonctionnelle partagée.
Les méthodes de détection actuelles ne séparent pas explicitement l'information liée à la tâche (sémantique) de l'information liée à la source (style), ce qui limite leur efficacité dans des scénarios multi-sources.

2. Méthodologie : Le Réseau d'Attribution de Code Désengagé (DCAN)

Les auteurs proposent DCAN (Disentangled Code Attribution Network), un cadre novateur qui repose sur l'hypothèse que la représentation latente d'un code peut être factorisée en deux composantes additives :

Information Agnostique de la Source (Source-Agnostic) : La sémantique fonctionnelle dépendante de la tâche, partagée par tous les modèles pour une même solution.
Information Spécifique à la Source (Source-Specific) : Les empreintes stylistiques et structurelles inhérentes au modèle générateur.

Architecture et Flux de Données

Extraction de caractéristiques : Le modèle utilise un encodeur pré-entraîné (UniXcoder) pour transformer chaque extrait de code en une représentation latente initiale ( $h_{base}$ ) qui entremêle les deux types d'informations.
Module de Désengagement :
- Un réseau de projection non linéaire (MLP) est entraîné pour approximer la composante agnostique ( $h_{com}$ ), en alignant les représentations de différents modèles pour la même tâche.
- La composante spécifique ( $h_{spec}$ ) est obtenue par soustraction : $h_{spec} = h_{base} - h_{com}$ .
Classification : Un classifieur linéaire opère exclusivement sur $h_{spec}$ pour prédire le modèle source, garantissant que la décision est basée sur le style et non sur la logique fonctionnelle.

Objectifs d'Optimisation

L'entraînement de DCAN utilise une fonction de perte conjointe :

Perte de Classification de Source ( $\mathcal{L}_{cls}$ ) : Une perte d'entropie croisée appliquée sur $h_{spec}$ pour maximiser la précision de l'attribution.
Perte de Cohérence de Représentation ( $\mathcal{L}_{rc}$ ) : Une perte de régularisation appliquée sur $h_{com}$ . Elle force les représentations de solutions différentes pour la même tâche (mais provenant de modèles différents) à être proches dans l'espace latent. Cela garantit que $h_{com}$ capture bien la sémantique partagée, laissant à $h_{spec}$ uniquement les différences stylistiques.

3. Contributions Clés

Définition de la tâche LLMCSA : Introduction formelle du problème d'attribution de la source du code généré par LLM à un niveau de modèle spécifique.
Création d'un Benchmark à Grande Échelle : Construction du premier jeu de données public pour cette tâche, contenant 91 804 échantillons générés par quatre LLMs majeurs (DeepSeek, Claude, Qwen, ChatGPT) dans quatre langages (C, Go, Java, Python). Le dataset couvre deux modes de génération : avec et sans commentaires.
Cadre DCAN : Proposition d'une approche basée sur la désengagement de représentation qui sépare explicitement le style de la sémantique, permettant une attribution robuste sans accès au processus de génération.

4. Résultats Expérimentaux

Les expériences ont été menées sur le nouveau benchmark et comparées à des méthodes de base adaptées (GPTSniffer, CodeGPTSensor).

Performance Globale : DCAN surpasse systématiquement les méthodes de base.
- En mode Sans commentaires (Plain) : F1-score moyen de 92,94 % (contre 89,15 % pour le meilleur baseline).
- En mode Avec commentaires (Comment) : F1-score moyen atteint 98,38 %, démontrant que les commentaires fournissent des signaux d'attribution supplémentaires puissants.
Robustesse et Généralisation :
- Complexité : Contrairement aux intuitions, la performance s'améliore souvent sur les tâches difficiles (Hard) par rapport aux tâches faciles, car les tâches complexes amplifient les choix d'implémentation spécifiques au modèle.
- Efficacité des données : DCAN maintient une haute performance même avec seulement 10 % des données d'entraînement, grâce à la stratégie de désengagement.
- Généralisation Zero-Shot (LOLO) : Entraîné sur trois langages, le modèle parvient à attribuer le code du quatrième langage non vu. L'ajout de commentaires améliore considérablement cette capacité de généralisation (ex: passage de 69,70 % à 93,48 % pour le Python en Zero-Shot), suggérant que le style de langage naturel des commentaires est plus transférable que la syntaxe de code pure.
Analyse d'Abstraction : L'étude montre que la composante spécifique ( $h_{spec}$ ) est la seule à contenir l'information discriminante, tandis que la composante agnostique ( $h_{com}$ ) échoue à distinguer les modèles (performances au niveau du hasard), validant l'efficacité du module de désengagement.

5. Signification et Impact

Cet article établit que les LLMs possèdent des « personnalités de codage » distinctes et stables, formant des empreintes numériques exploitables.

Pour la Sécurité et la Conformité : DCAN offre un outil pratique pour l'analyse de provenance logicielle, permettant d'identifier l'origine d'un code malveillant ou d'une violation de licence.
Pour la Recherche : La désengagement de la sémantique et du style ouvre une nouvelle voie pour l'analyse de texte généré par IA, dépassant les approches binaire (humain vs machine) pour une analyse fine multi-source.
Ressource Publique : La disponibilité du dataset et du code source (GitHub) facilite la recherche reproductible dans le domaine de la forensique logicielle.

En conclusion, DCAN démontre qu'il est possible d'attribuer avec une grande fiabilité le code généré à son modèle d'origine en isolant mathématiquement les signatures stylistiques de la logique algorithmique sous-jacente.