COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Défi : Comprendre les Mots Ambigus dans les Histoires

Imaginez que vous lisez une petite histoire. Soudain, vous tombez sur un mot qui a plusieurs sens. Par exemple, le mot "banque".

Est-ce qu'il s'agit d'un endroit où l'on dépose de l'argent ?
Ou est-ce qu'il s'agit d'un banc de sable au bord de la rivière ?

Dans la vraie vie, selon le contexte de l'histoire, les deux sens peuvent sembler possibles, mais pas avec la même force. C'est là que les humains sont géniaux : nous avons une intuition. Mais pour les ordinateurs (les modèles d'intelligence artificielle), c'est un casse-tête.

L'objectif de cette compétition (SemEval-2026) était de demander à des IA de noter, sur une échelle de 1 à 5, à quel point un sens d'un mot est plausible dans une histoire donnée.

1 = C'est impossible.
5 = C'est la seule chose qui a du sens.
3 = C'est l'un des sens possibles, parmi d'autres.

🧠 La Solution : Une Équipe de Détectives (Les "Ensembles")

Les auteurs (Azwad et Tisa) ont essayé de résoudre ce problème en utilisant des "Grands Modèles de Langage" (des IA très puissantes comme GPT ou Gemini). Mais ils ont réalisé quelque chose d'important : parfois, même les humains ne sont pas d'accord.

Dans les données de l'exercice, si on demandait à 5 humains de noter la même phrase, ils donnaient des notes différentes (parfois 2, parfois 4). Il n'y avait pas une "vérité absolue", mais plutôt une opinion moyenne.

Pour imiter cette opinion humaine, les chercheurs ont eu une idée brillante : au lieu de demander la réponse à un seul détective, ils ont demandé à une équipe entière.

Voici comment ils ont fait, avec trois astuces (ou "stratégies de questionnement") :

1. La méthode "Réflexe" (Zero-shot)

C'est comme demander à un ami : "Qu'est-ce que tu penses de ce mot ?" sans lui donner de conseils. L'IA répond instinctivement. C'est rapide, mais parfois elle se trompe.

2. La méthode "Pas à pas" (Chain-of-Thought)

Ici, on demande à l'IA de réfléchir à voix haute : "D'abord, je regarde le contexte. Ensuite, je regarde la grammaire. Puis je compare...".

Le résultat surprenant : Cela n'a pas vraiment aidé ! Parfois, en essayant d'être trop logique, l'IA perd le côté intuitif et humain de la compréhension. C'est comme un détective qui analyse trop les preuves et oublie son instinct.

3. La méthode "Comparaison" (Comparative Prompting) ⭐ (La meilleure !)

C'est ici que la magie opère. Au lieu de demander à l'IA de juger un seul sens du mot, on lui dit : "Voici deux sens possibles pour ce mot dans cette histoire. Lequel est le plus probable, et pourquoi ?".

L'analogie : C'est comme un juge de concours de cuisine. Au lieu de goûter un seul plat et de lui donner une note, il goûte le plat A et le plat B côte à côte pour mieux les comparer. Cela aide l'IA à mieux comprendre les nuances.

🤝 Le Secret : La Force du Groupe (L'Ensemble)

Même avec la meilleure méthode, un seul modèle d'IA peut être capricieux. Alors, les chercheurs ont créé un "Super-Équipe".

Ils ont pris les prédictions de 10 IA différentes (des modèles plus petits et des modèles plus gros) et ont fait la moyenne de leurs réponses.

Imaginez que vous demandez à 10 personnes de deviner le poids d'un porc. Une personne dira 100kg, une autre 120kg. Si vous faites la moyenne, vous êtes souvent beaucoup plus proche de la réalité qu'avec n'importe qui individuellement.

Le résultat ?

Leur système a fini 4ème sur le podium de la compétition.
Mais le plus cool : après la compétition, en ajoutant encore plus d'IA à l'équipe, ils ont atteint un niveau de performance égal au premier classé (presque aussi bon que les humains en moyenne).

💡 Ce qu'il faut retenir (La Morale de l'histoire)

La comparaison bat l'isolement : Pour juger des nuances subtiles, il vaut mieux comparer les options entre elles que de les juger seules.
La sagesse de la foule : Dans des tâches où les humains ne sont pas d'accord (comme juger l'humour ou la plausibilité d'une histoire), faire travailler une équipe d'IA ensemble donne un résultat bien plus fiable et "humain" que de compter sur une seule IA, même très puissante.
L'IA n'a pas besoin d'être parfaite, elle a juste besoin d'être nombreuse : Parfois, une équipe de petits modèles qui travaillent ensemble vaut mieux qu'un seul grand modèle qui travaille tout seul.

En résumé, les auteurs ont prouvé que pour comprendre la complexité des histoires humaines, il ne faut pas un seul génie, mais une équipe de génies qui discutent entre eux.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La tâche abordée lors du SemEval-2026 Task 5 consiste à évaluer la plausibilité des sens d'homonymes dans des contextes narratifs courts. Contrairement à la désambiguïsation lexicale traditionnelle (WSD) qui cherche un seul sens « correct », cette tâche reconnaît que dans les récits naturels, plusieurs sens d'un mot peuvent être plausibles simultanément.

Données : Le système utilise le jeu de données AmbiStory, composé de 3 798 échantillons où des histoires ambigües (avec ou sans fin) sont présentées avec un mot cible et des sens candidats.
Annotation : Les annotateurs humains attribuent des notes de plausibilité sur une échelle de Likert de 1 à 5 (de « improbable » à « seul sens plausible »).
Défi majeur : Il existe une variabilité inter-annotateurs significative (coefficient Krippendorff $\alpha = 0.506$ ). Les jugements humains sont subjectifs et souvent distribués sur plusieurs valeurs, rendant l'objectif d'un modèle unique difficile à atteindre.
Métriques d'évaluation : La performance est mesurée par la moyenne non pondérée de deux indicateurs :
1. Précision : Proportion de prédictions situées à moins d'un écart-type de la moyenne des jugements humains.
2. Corrélation de Spearman ( $\rho$ ) : Mesure de l'ordre de classement entre les prédictions du modèle et les jugements humains moyens.

2. Méthodologie

L'équipe (COGNAC) a exploré trois stratégies de prompting (incitation) utilisant dix modèles de langage (LLM) propriétaires (GPT, Gemini, DeepSeek), combinées à une approche d'ensemble.

A. Stratégies de Prompting

Zero-shot (Base) : Une configuration de base sans exemples few-shot, demandant au modèle de justifier son jugement dans un format JSON structuré.
Chain-of-Thought (CoT) : Une approche structurée en cinq étapes (analyse du contexte, rôle grammatical, adéquation sémantique, comparaison avec d'autres sens, attribution de la note). L'objectif était de réduire les biais d'interprétation immédiate.
Prompting Comparatif : Stratégie innovante où le modèle reçoit simultanément les deux sens candidats pour un même contexte. Le modèle doit évaluer et justifier les deux options en même temps, alignant ainsi le processus d'inférence sur la nature comparative de l'annotation humaine.

B. Approche par Ensemble (Ensembling)

Constatant que la variabilité des annotations humaines dépasse souvent la capacité d'un seul modèle à reproduire la moyenne, les auteurs proposent un ensemble de modèles.

Méthode : Agrégation des prédictions de plusieurs modèles (et de différentes stratégies de prompting) via une moyenne non pondérée.
Hypothèse : L'agrégation de modèles hétérogènes permet de lisser les erreurs individuelles et de mieux approximer la distribution des jugements humains, même lorsque ces jugements sont subjectifs.

3. Résultats Clés

Les expériences ont été menées sur l'ensemble de développement, puis validées sur l'ensemble de test (après la compétition).

Performance des Modèles Individuels

Le prompting comparatif s'est révélé systématiquement supérieur aux stratégies Zero-shot et CoT pour la majorité des modèles (9 sur 10).
Le CoT n'a pas apporté d'amélioration significative par rapport à la base, suggérant que le raisonnement étape par étape peut parfois éloigner le modèle de l'intuition humaine dans des tâches subjectives.
Le meilleur modèle individuel (gpt-5-mini en Zero-shot) a obtenu un score moyen de 0,81.

Performance des Ensembles

L'approche par ensemble a démontré une supériorité marquée :

Ensemble officiel (6 modèles) : Le système final (Eall) a obtenu un score moyen de 0,86 (Précision : 0,88 ; $\rho$ : 0,83), se classant 4ème au classement officiel.
Améliorations post-compétition (10 modèles) : En ajoutant quatre modèles supplémentaires, la performance est passée à un score moyen de 0,89 (Précision : 0,92 ; $\rho$ : 0,85), égalant le leader de la compétition (SRCB).
Observation surprenante : L'ensemble des trois modèles les plus faibles a atteint un score de 0,812, rivalisant avec les meilleurs modèles individuels, confirmant que la diversité des modèles compense la puissance brute d'un seul modèle.

4. Contributions Principales

Évaluation comparative des stratégies : Démonstration que l'évaluation conjointe des sens (prompting comparatif) est cruciale pour les tâches de plausibilité subjective, surpassant les approches de raisonnement linéaire (CoT).
Efficacité de l'Ensembling pour les jugements subjectifs : Preuve empirique que l'agrégation de prédictions de LLMs multiples est une méthode robuste pour modéliser les jugements humains moyens dans des contextes à forte variabilité d'annotation, là où un modèle unique échoue souvent.
Benchmarking à grande échelle : Analyse de dix modèles LLM fermés sur une tâche complexe de sémantique narrative, fournissant des données précieuses sur le comportement différentiel des familles de modèles (GPT vs Gemini vs DeepSeek).

5. Signification et Limites

Signification :
Ce travail suggère que pour les tâches d'évaluation sémantique subjective impliquant plusieurs annotateurs, la diversité des modèles (via l'ensemble) est plus efficace que l'optimisation d'un seul modèle puissant. Cela valide l'idée que les ensembles de LLMs peuvent atteindre un niveau de performance « humain » en capturant la distribution des interprétations possibles plutôt qu'une vérité unique.

Limites :

Dépendance aux API : L'utilisation exclusive de modèles commerciaux fermés limite la reproductibilité et l'accessibilité en raison des coûts.
Absence de fine-tuning : L'équipe n'a pas utilisé le jeu de données d'entraînement étendu ni affiné les modèles, se concentrant uniquement sur le prompting et l'ensemble.
Coût computationnel : L'approche par ensemble multiplie le temps d'inférence et les coûts opérationnels, la rendant moins pratique pour des applications en temps réel ou à ressources limitées.

En conclusion, l'article COGNAC démontre que l'approche par ensemble de LLMs, couplée à une stratégie de comparaison directe des sens, constitue l'état de l'art pour la prédiction de la plausibilité des sens dans des récits ambigus, surpassant les modèles individuels les plus avancés.