Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Each language version is independently generated for its own context, not a direct translation.

🧠 Le "Test de Surprise" : Comment écouter ce que les IA pensent vraiment

Imaginez que vous interrogez un grand expert (une Intelligence Artificielle) sur le monde. Habituellement, on lui pose une question et on attend qu'il réponde avec une phrase complète. C'est comme demander à un ami : "Quel est le résultat de ce match ?" et il vous répond : "L'équipe A a gagné."

Le problème ? Parfois, l'ami invente une réponse pour faire plaisir, ou il explique des choses compliquées qui ne reflètent pas sa vraie pensée. De plus, on ne sait pas s'il est sûr de lui ou s'il a juste deviné.

Ce papier propose une nouvelle méthode pour "écouter" l'IA sans qu'elle ait besoin de parler. Au lieu de lui demander de générer une réponse, on lui demande de choisir une option parmi plusieurs, en mesurant à quel point elle est "surprise" par chaque choix.

🎯 L'Idée de Base : La Surprise comme Miroir

Imaginez que vous êtes dans une pièce et que quelqu'un vous dit : "Le ciel est..."

Si la personne dit "bleu", vous ne vous attendez pas à être surpris. C'est logique.
Si elle dit "vert", vous sursautez ! C'est une surprise énorme.

Pour les IA, cette "surprise" est mathématique. Plus une phrase est probable (logique), moins l'IA est "surprise". Plus elle est improbable (bizarre), plus la surprise est grande.

L'analogie du tremblement de terre :
Imaginez que la connaissance de l'IA est un sol stable.

Une phrase logique (ex: "Paris est la capitale de la France") est comme un pas sur un sol ferme : aucun tremblement.
Une phrase fausse (ex: "Paris est la capitale de Tokyo") fait trembler le sol : un gros séisme.

Les chercheurs utilisent ce "tremblement" (appelé surprisal ou "surprise" en info) pour voir ce que l'IA sait vraiment, sans qu'elle ait besoin de rédiger un long texte.

📈 De "Oui/Non" à une "Courbe de Sentiment"

Avant, on utilisait cette méthode seulement pour des questions binaires (Vrai/Faux, Grammatical/Non grammatical). C'était comme demander : "Est-ce que c'est vrai ?"

Ce papier va plus loin. Il transforme la question en une échelle de 1 à 5 ou 1 à 9.
C'est comme passer d'un interrupteur (Allumé/Éteint) à un variateur de lumière.

L'expérience : On demande à l'IA : "Sur une échelle de 1 à 9, à quel point cette phrase est-elle logique ?"
Le résultat : Au lieu d'avoir juste un chiffre, on obtient une courbe de surprise.
- Si la courbe a un pic très net au chiffre 9, l'IA est très sûre d'elle.
- Si la courbe est plate et douce, l'IA est indécise ou confuse.

C'est comme si on ne demandait pas seulement "Quel est le temps ?", mais qu'on regardait le thermomètre pour voir si la température est stable ou si elle fluctue dangereusement.

🌍 Les 4 Expériences (Les Champs de Jeu)

Les chercheurs ont testé cette méthode sur quatre domaines très différents, comme un test de conduite sur différents terrains :

Les Écosystèmes (SETS) : On a donné à l'IA des mots comme "ressort" (spring) ou "virus".
- Le défi : Un "ressort" peut être un objet mécanique (technologique) ou un animal qui saute (écologique).
- Le résultat : L'IA a réussi à faire la différence ! Quand on parlait d'un jardin, elle trouvait le mot "ressort" très logique pour l'écologie. Quand on parlait d'un logiciel, elle le trouvait logique pour la technologie. Les petits modèles (les "petites IA") se sont trompés, mais les grands modèles ont bien compris le contexte.
La Cause et l'Effet : On a demandé à l'IA de distinguer les vraies causes des simples coïncidences.
- Exemple : "Il pleut, donc le sol est mouillé" (Vraie cause) vs "Les gens achètent plus de glaces quand il fait chaud" (Corrélation, pas cause directe).
- Le résultat : L'IA a bien compris la nuance. Pour les cas flous, sa courbe de surprise était plate (elle hésitait), ce qui est une bonne chose : cela montre qu'elle sait qu'il y a un doute.
Le Langage Figuré (Métaphores) : L'IA doit distinguer le vrai du figuré.
- Phrase : "Les mots pendaient dans l'air." (Figuré) vs "La bannière pendait dans l'air." (Littéral).
- Le résultat : L'IA a su dire que la première phrase était très métaphorique et la seconde très littérale, même si les mots étaient presque les mêmes.
Le Décodage de Sondages : On a demandé à l'IA de classer des réponses d'étudiants ou de professeurs selon des thèmes (ex: "Équilibre vie pro/vie perso").
- Le résultat : L'IA a pu dire à quel point un thème s'appliquait à un texte, et son niveau d'incertitude (la courbe plate) a aidé les humains à savoir quand relire le texte avec attention.

💡 Pourquoi c'est génial ? (Les Avantages)

Pas de "Blabla" inutile : L'IA n'a pas besoin d'écrire un roman pour répondre. On mesure juste sa réaction interne. C'est beaucoup plus rapide et moins cher.
Détection du doute : C'est le plus gros avantage. Si l'IA est confuse, sa courbe de surprise est plate. Si elle est sûre, elle a un pic net. Cela permet de dire : "Attention, l'IA hésite ici, un humain doit vérifier !"
Vérité cachée : Parfois, l'IA peut écrire une réponse qui semble logique mais qui est fausse (elle "rationalise" après coup). Cette méthode mesure ce qu'elle pense vraiment avant même de parler, comme un test de réflexe.

⚠️ Les Limites (Le Petit Bémol)

Ce n'est pas magique : Parfois, l'IA est très sûre d'elle (courbe en pic) mais elle a tort. Il faut toujours vérifier.
La langue des machines : Pour que ça marche, il faut être très précis dans la façon dont on pose la question (les espaces, les majuscules), car l'IA voit les mots comme des blocs de Lego spécifiques.
Accès : Cette méthode nécessite d'avoir accès aux "câbles internes" de l'IA (les probabilités), ce qui n'est pas toujours possible avec les IA commerciales fermées (comme ChatGPT payant).

🏁 En Résumé

Ce papier nous dit : "Arrêtez de demander aux IA de rédiger des essais pour les tester. Demandez-leur plutôt de choisir une option sur une échelle et écoutez leur 'battement de cœur' (leur niveau de surprise)."

C'est comme passer d'un interrogatoire où l'accusé raconte son histoire, à un test de polygraphe qui mesure ses réactions physiologiques. C'est plus rapide, plus honnête, et cela nous donne un indicateur précieux pour savoir quand faire confiance à l'IA et quand rester prudent.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage (LLM) sont de plus en plus utilisés pour des tâches de classification, d'évaluation et de prise de décision. Cependant, les paradigmes d'évaluation actuels présentent plusieurs limites majeures :

Coût et Efficacité : Les méthodes basées sur la génération de texte (prompting) sont coûteuses en calcul et peuvent être lentes.
Rationalisation a posteriori : Les explications générées par les modèles peuvent être des rationalisations plausibles mais ne reflètent pas nécessairement leur processus de décision réel ou leur compréhension interne.
Manque d'incertitude : Les sorties binaires (vrai/faux) ou les choix multiples simples ne quantifient pas l'incertitude du modèle, ce qui est crucial pour les applications à haut risque.
Limites des paires minimales : L'approche classique des « paires minimales » (comparer la probabilité de deux phrases pour juger de la grammaire) est restée confinée aux jugements grammaticaux binaires et aux phénomènes linguistiques, sans s'étendre aux tâches de classification appliquées ou aux échelles ordinales.

L'objectif de l'article est de combler ces lacunes en étendant l'évaluation basée sur le surprisal (la « surprise » informationnelle) au-delà des jugements binaires, vers des tâches de classification et de notation sur des échelles ordinales (ex: 1-5, 1-9) dans divers domaines appliqués.

2. Méthodologie : Cadre d'Évaluation Basé sur le Surprisal

L'auteur propose un cadre qui ne demande pas au modèle de générer une réponse, mais mesure la « surprise » (négatif du logarithme de la probabilité) que le modèle assigne à différentes options de complétion possibles.

Concepts Fondamentaux

Surprisal ( $S$ ) : Défini comme $S(x) = -\log P(x)$ . Un surprisal faible indique une probabilité élevée (ce que le modèle s'attend à voir), tandis qu'un surprisal élevé indique un événement inattendu.
Courbes de Surprisal Ordinales : Au lieu de comparer deux options, le modèle évalue la probabilité de chaque position sur une échelle (ex: 1 à 9). La position avec le surprisal minimal représente la réponse « naturelle » ou préférée du modèle.
Quantification de l'Incertitude (Entropie) : En calculant l'entropie de la distribution de probabilité sur l'ensemble des options d'échelle, le cadre mesure l'incertitude du modèle.
- Une courbe de surprisal raide (pic étroit) indique une faible entropie et une forte confiance.
- Une courbe plate ou multimodale indique une haute entropie, signalant une ambiguïté réelle ou une confusion du modèle.
Normalisation : Pour éviter les biais liés à la compétition de forme de surface (surface form competition), les probabilités sont renormalisées sur l'ensemble restreint des tokens candidats (les options de l'échelle), simulant un paradigme de choix forcé.

Design Expérimental

L'étude explore quatre domaines distincts en utilisant des modèles de la famille Qwen2.5 (3B, 7B, 14B, avec et sans instruction) :

Classification SETS : Évaluation des entités selon les dimensions Socio-Écologique-Technologique (échelle 1-9).
Identification de Relations Causales : Tâches binaires (Vrai/Faux) et ordinales (force de la causalité, échelles 1-5 et 1-9).
Détection du Langage Figuré : Distinction entre énoncés métaphoriques et littéraux (échelle d'intensité 1-5 et 1-9).
Codage Déductif : Application de codes théoriques à des réponses de sondages qualitatifs (échelle d'applicabilité 1-5).

3. Contributions Clés

Extension des Paires Minimales : Passage des jugements grammaticaux binaires à des échelles ordinales continues, permettant une évaluation plus nuancée de la confiance et de l'incertitude.
Application Transversale : Démonstration de la validité de l'approche au-delà de la linguistique pure, dans des domaines appliqués (systèmes complexes, raisonnement causal, analyse qualitative).
Mesure d'Incertitude Principée : Utilisation de l'entropie calculée directement sur les distributions de probabilité du modèle (sans calibration externe ni auto-évaluation verbale) pour distinguer les items ambigus des items clairs.
Efficacité Computationnelle : L'évaluation par surprisal nécessite un seul passage avant (forward pass) pour lire les logits de quelques tokens, offrant un gain de vitesse significatif par rapport à la génération de texte.

4. Résultats Principaux

Performance et Taille du Modèle : De manière générale, les modèles plus grands (14B) obtiennent de meilleurs résultats (plus faible erreur absolue moyenne, meilleure précision) que les modèles plus petits (3B). Cependant, la relation n'est pas strictement monotone ; parfois, le modèle de base (14B) surperforme sa version fine-tunée (14B-Instruct), suggérant que le fine-tuning peut introduire des biais de réponse qui déforment les distributions de surprisal brutes.
Sensibilité au Contexte :
- Pour les tâches d'homonymes (ex: "virus" biologique vs informatique), les modèles 14B ajustent correctement leurs scores en fonction du contexte, tandis que les modèles 3B échouent souvent.
- L'ajout de contexte explicatif n'est pas toujours bénéfique : pour les modèles déjà compétents, un contexte excessif peut parfois réduire la discriminabilité (en rétrécissant la distribution de probabilité de manière contre-productive).
Distinction Ambiguïté vs Erreur :
- Les items véritablement ambigus (ex: "Les étudiants qui étudient plus ont tendance à avoir de meilleures notes" comme relation causale) produisent des courbes de surprisal plates et une entropie élevée.
- Les erreurs de modèles (ex: mauvaise classification d'un "bug" logiciel par un petit modèle) sont souvent accompagnées d'une faible entropie (confiance élevée mais incorrecte).
Langage Figuré : Le modèle de base 14B a montré une capacité supérieure (95% de discrimination) à distinguer le figuré du littéral par rapport aux modèles fine-tunés, suggérant que le fine-tuning peut biaiser les distributions de surprisal vers des réponses attendues plutôt que vers la représentation sémantique sous-jacente.
Codage Qualitatif : L'approche permet de capturer des degrés d'applicabilité de codes, offrant un signal d'incertitude utile pour les analystes humains dans une boucle homme-machine.

5. Signification et Implications

Accès aux Représentations Implicites : Cette méthode offre une fenêtre directe sur les représentations apprises par le modèle, évitant le bruit des rationalisations générées par le modèle lors de prompts explicites.
Alternative au "System 2" : L'auteur suggère une analogie avec les théories du double processus : l'évaluation par surprisal correspondrait à un "System 1" (réflexe, associatif, immédiat), tandis que le prompting avec raisonnement (Chain-of-Thought) correspondrait à un "System 2" (délibéré, analytique).
Utilité Pratique : L'entropie peut servir de signal d'alerte pour les applications à haut risque, indiquant quand une décision automatisée nécessite une revue humaine.
Limitations et Défis Futurs :
- La méthode dépend de l'accès aux logits (log-probabilités), ce qui est limité pour les modèles propriétaires via API.
- La sensibilité à la tokenisation (espaces, formatage) nécessite une attention rigoureuse.
- La calibration entre l'entropie et la précision réelle reste un défi et nécessite des études plus poussées.

En conclusion, l'article propose un cadre robuste et efficace pour évaluer les LLMs non pas sur ce qu'ils disent, mais sur ce qu'ils "s'attendent" à voir, offrant une quantification de l'incertitude et une analyse plus fine des connaissances implicites des modèles à travers divers domaines appliqués.