Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article, comme si nous en parlions autour d'une tasse de café.

🦉 Le Corbeau et le Robot : Pourquoi les mots ne suffisent pas

Imaginez que vous lisez le célèbre poème Le Corbeau d'Edgar Allan Poe. Le mot "Jamais" (ou Nevermore) revient tout le temps.

Au début, il signifie : "Je ne reverrai jamais mon amour perdu."
Plus loin, il signifie : "Je ne trouverai jamais de réconfort."
À la fin, il signifie : "Mon âme ne s'envolera jamais de cette ombre."

Pour un humain, le sens de ce mot change à chaque fois, comme un caméléon qui change de couleur selon le décor. C'est ce qu'on appelle le sens contextuel.

Maintenant, imaginez un robot (une Intelligence Artificielle) qui lit ce poème. Pour le robot, "Jamais" est souvent juste un mot qui ressemble à d'autres mots. Il a appris que "Jamais" apparaît souvent dans des phrases tristes, mais il ne ressent pas la douleur qui change à chaque strophe. Il voit les briques (les mots), mais il ne voit pas la maison (le sens profond).

📏 Le problème : Mesurer avec une règle en plastique

Aujourd'hui, pour savoir si un résumé fait par une IA est bon, on utilise des "règles" automatiques (des métriques). Ces règles comptent combien de mots sont identiques entre le texte original et le résumé de l'IA.

Le problème : C'est comme si vous jugiez un chef cuisinier uniquement en comptant le nombre de tomates dans son assiette. Si l'IA met les mêmes tomates que vous, elle a un "10/10". Mais si elle a oublié le sel, le poivre et l'âme du plat, le goût sera mauvais. L'IA peut avoir un score parfait en mots, mais un sens totalement faux.

🆕 La solution : Le "R.I.C." (Rating Conceptuel Inductif)

Les auteurs de l'article, Natalie, Sreyoshi et Aman, proposent une nouvelle méthode pour juger le sens, pas juste les mots. Ils l'appellent ICR (Inductive Conceptual Rating).

Imaginez que vous voulez vérifier si un traducteur a bien compris un livre.

L'approche classique (IA) : On compare les mots un par un.
L'approche ICR (Humaine) : On fait appel à un détective du sens.

Voici comment fonctionne le détective (l'ICR) en 4 étapes simples :

Étape 1 : Le Groupe de Discussion Humain (La Réalité)

Avant même de regarder l'IA, des humains experts lisent le texte original. Ils ne cherchent pas les mots, ils cherchent les idées cachées.

Analogie : C'est comme un groupe de dégustation de vin. Ils notent les arômes réels : "notes de cerise", "un peu de bois", "un goût de terre". Ils créent une "carte des saveurs" idéale.

Étape 2 : L'IA fait son résumé

L'IA lit le même texte et écrit son résumé, comme un élève qui a écouté le cours mais n'a pas pris de notes.

Étape 3 : Le Détective compare les deux

Le détective prend le résumé de l'IA et le compare à la "carte des saveurs" humaine.

L'IA a-t-elle oublié l'idée principale ? (C'est un Faux Négatif).
L'IA a-t-elle inventé une idée qui n'est pas là ? (C'est un Faux Positif).
L'IA a-t-elle compris la nuance ? (Par exemple, a-t-elle compris que "Jamais" est triste ici, mais rageur plus loin ?).

Étape 4 : Le Score de Vérité

Au lieu d'un score de "similitude de mots", on donne un score de fidélité du sens.

Si l'IA a raté les émotions ou les nuances, son score baisse, même si elle a utilisé les bons mots.

📊 Ce qu'ils ont découvert (Le verdict)

Ils ont testé cette méthode sur 5 groupes de textes différents (de petits groupes de 50 personnes à de grands groupes de 800).

Le résultat surprenant : Les IA étaient excellentes pour copier les mots (elles avaient de bons scores avec les anciennes règles). Mais quand on a utilisé la nouvelle règle ICR (le détective), leur score a chuté.
Pourquoi ? Les IA sont très douées pour imiter la forme, mais elles ont du mal à comprendre le fond. Elles simulent le sens, elles ne le créent pas vraiment.
L'espoir : Plus il y a de textes à lire, mieux les IA font. Mais même avec beaucoup de données, elles ne rattrapent jamais tout à fait la compréhension humaine, surtout pour les sujets complexes ou émotionnels.

💡 En résumé : Pourquoi c'est important ?

Cet article nous dit : "Arrêtez de croire que si l'IA parle bien, elle comprend bien."

L'IA est un perroquet très intelligent : Elle peut répéter des phrases parfaites, mais elle ne sait pas ce qu'elles signifient vraiment dans le cœur d'une personne.
L'humain est indispensable : Pour juger si un résumé d'IA est "vrai" ou "juste", nous avons besoin de l'intuition humaine, de la culture et de la capacité à comprendre les nuances, tout comme le détective dans notre histoire.

La conclusion est simple : L'IA est un outil formidable pour trouver des motifs, mais elle ne doit jamais remplacer l'humain quand il s'agit de comprendre le vrai sens des choses. Nous devons utiliser des outils comme l'ICR pour nous assurer que l'IA ne nous raconte pas de belles histoires, mais qu'elle nous dit la vérité.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries », rédigé en français.

1. Problématique et Contexte

L'article aborde une lacune fondamentale dans l'évaluation des modèles de langage (LLM) : la distinction entre la similitude lexicale (la surface des mots) et la fidélité sémantique (la signification profonde et contextuelle).

Limites des métriques actuelles : Les métriques automatisées traditionnelles (ROUGE, BLEU, BERTScore) traitent les signes linguistiques comme des unités statiques et indépendantes du contexte. Elles reposent sur des approximations statistiques (co-occurrence, vecteurs) qui échouent à capturer la polysemie (un mot ayant plusieurs sens) et la nature relationnelle, fluide et dépendante du contexte du sens humain.
Le paradoxe du sens : En sémiotique (théorie des signes), le sens émerge d'un système dynamique de relations entre le signifiant (le mot) et le signifié (le concept). Les LLM, bien qu'incapables de véritable compréhension, simulent ce processus par des probabilités. L'article soutient que les métriques actuelles mesurent la simulation de la forme, mais pas la vérité du sens, risquant ainsi de valider des sorties qui sont linguistiquement correctes mais sémantiquement fausses ou déformées.

2. Méthodologie : Le Métrique ICR (Inductive Conceptual Rating)

Pour combler ce fossé épistémologique, les auteurs proposent une nouvelle approche d'évaluation qualitative systématisée, le ICR, fondée sur l'analyse de contenu inductive et l'analyse thématique réflexive.

A. Fondements Théoriques

Le cadre intègre la sémiotique (Saussure) et l'herméneutique (Gadamer, Ricoeur) pour traiter le sens comme émergent, relationnel et contextuel, plutôt que comme une fonction déterministe fixe ( $y = f(x)$ ).

B. Procédure en Quatre Étapes

Le processus ICR compare une sortie générée par une IA à une « vérité terrain » humaine (Ground Truth) :

Analyse Thématique Réflexive (RTA) sur les données de référence :
- Des chercheurs experts analysent le corpus de référence (texte original) pour identifier les thèmes émergents, les relations contextuelles et les nuances sémantiques.
- Cela établit une base de référence interprétative humaine (Ground Truth) riche en contexte.
Analyse de Contenu Inductive (ICA) sur les sorties LLM :
- Les sorties du LLM sont analysées indépendamment, sans imposer les thèmes humains à priori.
- L'objectif est de révéler comment le modèle construit ses propres catégories et relations sémantiques.
Comparaison Systématique :
- Les catégories issues de l'ICA (IA) sont comparées à la base RTA (Humaine).
- On identifie les alignements, les distorsions, les omissions et les hallucinations (fabrications de sens).
Quantification du Score ICR :
- Un score numérique (0 à 1) est calculé en fonction de la présence ou de l'absence de concepts clés :
  - Vrais Positifs (TP) : Concepts correctement capturés.
  - Faux Positifs (FP) : Concepts ajoutés incorrectement (hallucinations).
  - Faux Négatifs (FN) : Concepts humains manquants dans la sortie IA.
  - Vrais Négatifs (TN) : Concepts non pertinents correctement exclus.
- Ce score quantifie la fidélité sémantique et la vérité contextuelle.

3. Étude Empirique et Résultats

Les auteurs ont appliqué le ICR sur cinq jeux de données de tailles variées ( $N=50$ à $N=800$ ), contenant des commentaires ouverts sur les perceptions du travail. Ils ont comparé les résumés thématiques générés par deux modèles (Sonnet 3.5 et Nova Pro) avec les analyses humaines.

Performance Linguistique vs Sémantique :
- Les LLM ont obtenu des scores élevés sur les métriques linguistiques (similarité cosinus, F1-score), indiquant une bonne couverture lexicale.
- Cependant, les scores ICR (sémantiques) étaient systématiquement inférieurs à ceux des humains, révélant un décalage significatif.
Impact de la taille des données :
- La performance sémantique des LLM s'améliore avec la taille du jeu de données (le score ICR augmente de $N=50$ à $N=800$ ), mais ne rattrape jamais totalement la précision humaine.
- Même sur le plus grand jeu de données ( $N=800$ ), les LLM ont affiché des scores ICR (0,65 à 0,76) nettement inférieurs à l'analyse humaine (0,93).
Variabilité des modèles :
- Les résultats varient selon les modèles, suggérant que la complexité architecturale ou la « nouveauté » du modèle ne garantit pas une meilleure compréhension sémantique.
Observations clés :
- Les modèles tendent à sur-représenter les aspects factuels ou génériques tout en sous-représentant les nuances émotionnelles, les tensions relationnelles et les contextes culturels spécifiques.
- Les modèles produisent souvent des combinaisons conceptuelles nouvelles mais inexactes (hallucinations sémantiques) qui ne reflètent pas la réalité des données sources.

4. Contributions Clés

Cadre Épistémologique : L'article propose un changement de paradigme pour l'évaluation des LLM, passant d'une logique déductive (recherche de motifs fixes) à une logique inductive (recherche de sens émergent et contextuel).
Métrique ICR : Introduction d'un outil hybride qui combine la rigueur de l'analyse qualitative humaine avec une quantification reproductible, permettant de mesurer la « vérité » du sens au-delà de la simple similarité textuelle.
Preuve Empirique : Démonstration que les métriques automatisées actuelles sont insuffisantes pour évaluer la fidélité sémantique, car elles masquent les distorsions de sens critiques dans les tâches de synthèse et de résumé.

5. Signification et Implications

Pour la recherche : L'article plaide pour une approche « Human-in-the-loop » où l'interprétation humaine reste centrale pour valider le sens généré par l'IA. Il met en garde contre l'utilisation des LLM comme « arbitres de vérité » dans des domaines nécessitant une compréhension nuancée (sciences sociales, santé, droit).
Pour la pratique : Les organisations doivent utiliser des métriques comme le ICR pour évaluer les risques de désinformation ou de biais sémantique dans les applications de GenAI, surtout dans des contextes à haut risque.
Conclusion Philosophique : Les LLM simulent le sens en manipulant des systèmes de signes statistiques, mais ils ne génèrent pas de sens au sens herméneutique (basé sur l'expérience vécue et la culture). L'écart entre les scores humains et IA quantifie cette limite épistémique fondamentale.

En résumé, cet article démontre que la fluidité linguistique des LLM ne se traduit pas par une compréhension profonde, et propose le ICR comme une méthode rigoureuse pour réintroduire l'interprétation humaine dans le cycle d'évaluation de l'intelligence artificielle.