No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de cette recherche, imagée comme si nous parlions d'une enquête policière sur des élèves qui trichent.

🕵️‍♂️ Le Grand Débat : Comment repérer un tricheur ?

Imaginez que vous êtes un professeur (le chercheur) et que vous avez un examen (le test de l'IA). Le problème, c'est que certains élèves ont eu les réponses à l'avance dans leur manuel (c'est ce qu'on appelle la contamination). Si un élève a les réponses, il ne mérite pas de note.

Le but de l'article est de trouver un moyen de savoir si l'élève a triché, même si vous ne pouvez pas fouiller dans son sac (vous n'avez pas accès à ses notes d'étude).

1. La Méthode "CDD" : Le test de la répétition (La nouvelle idée)

Une équipe précédente a proposé une méthode appelée CDD.

L'idée : Si un élève a mémorisé la réponse par cœur, il sera robotique. Si vous lui posez la même question 50 fois en lui disant "essaie de varier un peu", il va donner exactement la même réponse à chaque fois, comme un perroquet.
La logique : Plus les réponses sont identiques (un pic de similitude), plus on est sûr qu'il a triché.
L'avantage : Cette méthode ne demande que les réponses écrites, pas les calculs internes de l'élève. C'est parfait pour les "boîtes noires".

2. Le Problème : Les "Petits" Élèves (Les petits modèles)

L'auteur de cet article, Omer Sela, a pris des petits modèles d'intelligence artificielle (de 70 millions à 410 millions de paramètres, ce qui est très petit pour une IA moderne). Il a simulé des tricheurs en leur donnant les réponses à l'avance, mais avec différentes méthodes d'apprentissage.

La découverte choquante :
La méthode CDD fonctionne très bien sur les gros élèves (les grands modèles), mais elle échoue lamentablement sur les petits, même quand ils ont triché !

Pourquoi ? Voici l'analogie :

Le cas de la "Mémoire Totale" (Full Fine-Tuning) : Imaginez un élève qui a lu le livre entier 20 fois. Il a tout gravé dans sa tête. Quand on lui demande la réponse, il la sort machinalement, toujours pareille. CDD détecte la triche. ✅
Le cas de la "Mémoire Partielle" (LoRA / Petits modèles) : Imaginez un élève qui a lu le livre une fois, ou qui a utilisé une méthode d'apprentissage rapide (comme un post-it sur le livre). Il a compris la logique, il a appris la matière, et il peut résoudre le problème. Mais il n'a pas la réponse gravée au fer rouge dans sa tête.
- Si vous lui posez la question 50 fois, il va donner 50 réponses légèrement différentes (parfois il fait une faute de calcul, parfois il change un mot), même si la réponse est globalement bonne.
- Pour le détecteur CDD, ces variations signifient : "Ah, il n'a pas triché, il réfléchit !" 🚫 Faux positif.

3. La Réalité du Terrain : L'aveuglement silencieux

L'article montre que dans la plupart des cas réels (surtout avec les petits modèles et les méthodes d'apprentissage économes), l'élève a triché, mais le détecteur CDD dit qu'il est innocent.

C'est ce qu'on appelle un "aveuglement silencieux". Le détecteur ne voit rien, alors que la triche est bien là.

4. Les Vrais Héros : Les Détecteurs de "Probabilité"

L'auteur compare CDD à d'autres méthodes plus anciennes (comme la Perplexité ou Min-k% Prob).

L'analogie : Au lieu de regarder ce que l'élève écrit, ces méthodes écoutent comment il pense.
Même si l'élève ne donne pas la même réponse 50 fois, ses "cerveaux internes" (les probabilités) montrent qu'il est trop familier avec la question. Il hésite moins, il est plus confiant que d'habitude.
Résultat : Ces méthodes détectent la triche même quand l'élève ne répète pas la réponse mot pour mot. Elles sont bien plus fiables sur les petits modèles.

🎯 En résumé, pour le grand public

Le mythe : "Si l'IA donne toujours la même réponse, c'est qu'elle a triché."
La réalité : "Si l'IA est petite ou bien entraînée, elle peut tricher (avoir vu la réponse) et tout de même donner des réponses différentes à chaque fois."
Le danger : Utiliser la méthode CDD sur les petits modèles d'aujourd'hui, c'est comme essayer de détecter un voleur en regardant s'il porte toujours le même chapeau. S'il a changé de chapeau, vous pensez qu'il est innocent, alors qu'il a volé la banque !
La solution : Il faut utiliser des méthodes qui écoutent la "confiance" de l'IA (les probabilités) plutôt que de simplement compter ses répétitions.

Conclusion de l'auteur : Arrêtons d'utiliser la méthode CDD pour vérifier les petits modèles d'IA, car elle nous donne de fausses assurances. Il faut passer à des méthodes plus fines qui regardent à l'intérieur du cerveau de l'IA, pas seulement à ce qu'elle écrit sur le papier.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models" (Pas de mémorisation, pas de détection : Détection de contamination basée sur la distribution de sortie dans les petits modèles de langage).

1. Problématique

La contamination des données (la présence de données d'évaluation dans l'ensemble de données d'entraînement d'un modèle) compromet la fiabilité des benchmarks pour les modèles de langage (LLM). Avec l'augmentation de la taille et de l'opacité des corpus d'entraînement, détecter cette contamination est crucial.

Une méthode récente, CDD (Contamination Detection via output Distribution), proposée par Dong et al. (2024), tente de détecter la contamination en mesurant la "pointe" (peakedness) de la distribution de sortie d'un modèle. L'hypothèse est qu'un modèle ayant mémorisé une réponse produira des sorties quasi identiques lors d'échantillonnages répétés, même avec du bruit (température), contrairement à un modèle non contaminé qui produirait des réponses variées.

Cependant, il reste à déterminer si cette méthode fonctionne sur les petits modèles de langage (SLM, < 1 milliard de paramètres) et si son efficacité dépend du régime de fine-tuning (ajustement fin), en particulier des méthodes efficaces en paramètres comme LoRA.

2. Méthodologie

L'auteur, Omer Sela, mène une étude systématique pour évaluer les limites de CDD.

Modèles : Utilisation de la suite Pythia (70M, 160M et 410M paramètres).
Données : Contamination contrôlée sur trois benchmarks : GSM8K (mathématiques), HumanEval (code) et MATH (mathématiques de compétition). Les données de test sont injectées dans l'ensemble d'entraînement avec des niveaux de contamination variables (0, 1, 5, 10 répétitions).
Configurations de Fine-tuning : L'étude varie deux axes orthogonaux pour isoler les effets de la capacité et de la durée :
- Capacité : Fine-tuning complet (Full FT), LoRA avec rang $r=8$ (très faible capacité) et LoRA avec rang $r=256$ (capacité intermédiaire).
- Durée : 3 et 20 époques d'entraînement.
Méthodes de comparaison :
- CDD : Mesure la similarité (distance d'édition) entre une sortie greedy et 50 échantillons à température.
- Baselines :
  - N-gram overlap (accès au corpus d'entraînement).
  - Perplexité (PPL) : Probabilité du modèle sur le prompt.
  - Min-k% Prob : Probabilité moyenne des $k\%$ tokens les moins probables.

3. Contributions Clés et Résultats Principaux

A. L'échec de CDD sans mémorisation stricte

Le résultat central est que CDD échoue totalement (précision au niveau du hasard, ~50 %) dans la majorité des conditions testées, même lorsque la contamination est avérée et détectable par d'autres méthodes.

Cause : CDD nécessite un effondrement de la distribution de sortie (le modèle doit produire la même réponse exacte à chaque fois).
Observation : Avec LoRA de faible rang ( $r=8$ ) et peu d'époques, le modèle apprend la tâche (la perte d'entraînement diminue) mais ne mémorise pas la réponse exacte. Il produit des sorties variées et correctes structurellement, mais différentes. CDD ne détecte rien car la distribution n'est pas "pointue".

B. Le seuil de mémorisation

L'efficacité de CDD dépend d'un seuil de mémorisation critique, déterminé par l'interaction entre la taille du modèle, le rang de l'adaptateur LoRA et la durée d'entraînement.

Dès que la capacité d'entraînement dépasse ce seuil (ex: LoRA $r=256$ ou Full FT), la distribution s'effondre et CDD passe d'une précision aléatoire à >90 %.
Ce seuil est "binaire" : il n'y a pas de zone intermédiaire où CDD fonctionne partiellement. Soit le modèle a mémorisé (détection possible), soit il a appris sans mémoriser (détection impossible).

C. Supériorité des méthodes basées sur la probabilité

Les méthodes basées sur les probabilités internes (Perplexité et Min-k% Prob) surpassent systématiquement CDD dans toutes les conditions, y compris celles où CDD échoue.

Ces méthodes détectent la contamination même lorsque le modèle n'a pas mémorisé la réponse exacte, car elles mesurent la familiarité du modèle avec les tokens du prompt (la surprise diminue).
Tableau 2 : Sur 27 conditions testées, CDD dépasse le hasard dans seulement 5 cas, tandis que la Perplexité et Min-k% Prob le font dans 24 et 25 cas respectivement.

D. Impact des paramètres et de l'échelle

Taille du modèle : La taille du modèle amplifie la mémorisation mais ne la crée pas si la méthode de fine-tuning (ex: LoRA $r=8$ ) limite la capacité d'apprentissage.
Contamination faible : Dans le scénario le plus réaliste (contamination à une seule répétition, $c=1$ ), CDD est inutile (précision ~0.50), tandis que les méthodes probabilistes montrent déjà un signal fort.

4. Signification et Implications

Limitation des méthodes "boîte noire" : CDD, bien qu'utile pour les grands modèles (7B+) où même un LoRA faible offre des millions de paramètres, est insuffisant pour les petits modèles (70M-410M). Il ne peut pas détecter la contamination si le fine-tuning efficace en paramètres empêche la mémorisation littérale.
Faux sentiment de sécurité : L'utilisation exclusive de CDD pour auditer des modèles adaptés via LoRA peut conduire à des faux négatifs (déclarer un modèle propre alors qu'il est contaminé).
Recommandation pratique : Pour les petits modèles de langage, les méthodes basées sur les probabilités (Perplexité, Min-k% Prob), qui nécessitent l'accès aux probabilités de sortie du modèle, sont nettement supérieures et plus fiables que les approches basées uniquement sur la distribution de texte échantillonné.
Distinction Apprentissage vs Mémorisation : L'article met en lumière la différence cruciale entre "apprendre d'une donnée" (baisse de la perte, amélioration des performances) et "mémoriser une donnée" (effondrement de la distribution de sortie). CDD ne détecte que la seconde.

Conclusion

L'article démontre que la détection de contamination basée sur la distribution de sortie (CDD) n'est pas une solution universelle. Elle échoue silencieusement dans les régimes de fine-tuning à faible capacité, là où la contamination est pourtant réelle. La communauté doit se tourner vers des méthodes exploitant les distributions de probabilités internes pour auditer efficacement les petits modèles de langage.