COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

L'article présente COGNAC, un système basé sur des ensembles de grands modèles de langage (LLM) utilisant différentes stratégies d'incitation, qui a atteint des performances proches du niveau humain pour évaluer la plausibilité des sens des mots dans des récits courts lors de la tâche 5 de SemEval-2026.

Azwad Anjum Islam, Tisa Islam Erana

Publié Wed, 18 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Défi : Comprendre les Mots Ambigus dans les Histoires

Imaginez que vous lisez une petite histoire. Soudain, vous tombez sur un mot qui a plusieurs sens. Par exemple, le mot "banque".

  • Est-ce qu'il s'agit d'un endroit où l'on dépose de l'argent ?
  • Ou est-ce qu'il s'agit d'un banc de sable au bord de la rivière ?

Dans la vraie vie, selon le contexte de l'histoire, les deux sens peuvent sembler possibles, mais pas avec la même force. C'est là que les humains sont géniaux : nous avons une intuition. Mais pour les ordinateurs (les modèles d'intelligence artificielle), c'est un casse-tête.

L'objectif de cette compétition (SemEval-2026) était de demander à des IA de noter, sur une échelle de 1 à 5, à quel point un sens d'un mot est plausible dans une histoire donnée.

  • 1 = C'est impossible.
  • 5 = C'est la seule chose qui a du sens.
  • 3 = C'est l'un des sens possibles, parmi d'autres.

🧠 La Solution : Une Équipe de Détectives (Les "Ensembles")

Les auteurs (Azwad et Tisa) ont essayé de résoudre ce problème en utilisant des "Grands Modèles de Langage" (des IA très puissantes comme GPT ou Gemini). Mais ils ont réalisé quelque chose d'important : parfois, même les humains ne sont pas d'accord.

Dans les données de l'exercice, si on demandait à 5 humains de noter la même phrase, ils donnaient des notes différentes (parfois 2, parfois 4). Il n'y avait pas une "vérité absolue", mais plutôt une opinion moyenne.

Pour imiter cette opinion humaine, les chercheurs ont eu une idée brillante : au lieu de demander la réponse à un seul détective, ils ont demandé à une équipe entière.

Voici comment ils ont fait, avec trois astuces (ou "stratégies de questionnement") :

1. La méthode "Réflexe" (Zero-shot)

C'est comme demander à un ami : "Qu'est-ce que tu penses de ce mot ?" sans lui donner de conseils. L'IA répond instinctivement. C'est rapide, mais parfois elle se trompe.

2. La méthode "Pas à pas" (Chain-of-Thought)

Ici, on demande à l'IA de réfléchir à voix haute : "D'abord, je regarde le contexte. Ensuite, je regarde la grammaire. Puis je compare...".

  • Le résultat surprenant : Cela n'a pas vraiment aidé ! Parfois, en essayant d'être trop logique, l'IA perd le côté intuitif et humain de la compréhension. C'est comme un détective qui analyse trop les preuves et oublie son instinct.

3. La méthode "Comparaison" (Comparative Prompting) ⭐ (La meilleure !)

C'est ici que la magie opère. Au lieu de demander à l'IA de juger un seul sens du mot, on lui dit : "Voici deux sens possibles pour ce mot dans cette histoire. Lequel est le plus probable, et pourquoi ?".

  • L'analogie : C'est comme un juge de concours de cuisine. Au lieu de goûter un seul plat et de lui donner une note, il goûte le plat A et le plat B côte à côte pour mieux les comparer. Cela aide l'IA à mieux comprendre les nuances.

🤝 Le Secret : La Force du Groupe (L'Ensemble)

Même avec la meilleure méthode, un seul modèle d'IA peut être capricieux. Alors, les chercheurs ont créé un "Super-Équipe".

Ils ont pris les prédictions de 10 IA différentes (des modèles plus petits et des modèles plus gros) et ont fait la moyenne de leurs réponses.

  • Imaginez que vous demandez à 10 personnes de deviner le poids d'un porc. Une personne dira 100kg, une autre 120kg. Si vous faites la moyenne, vous êtes souvent beaucoup plus proche de la réalité qu'avec n'importe qui individuellement.

Le résultat ?

  • Leur système a fini 4ème sur le podium de la compétition.
  • Mais le plus cool : après la compétition, en ajoutant encore plus d'IA à l'équipe, ils ont atteint un niveau de performance égal au premier classé (presque aussi bon que les humains en moyenne).

💡 Ce qu'il faut retenir (La Morale de l'histoire)

  1. La comparaison bat l'isolement : Pour juger des nuances subtiles, il vaut mieux comparer les options entre elles que de les juger seules.
  2. La sagesse de la foule : Dans des tâches où les humains ne sont pas d'accord (comme juger l'humour ou la plausibilité d'une histoire), faire travailler une équipe d'IA ensemble donne un résultat bien plus fiable et "humain" que de compter sur une seule IA, même très puissante.
  3. L'IA n'a pas besoin d'être parfaite, elle a juste besoin d'être nombreuse : Parfois, une équipe de petits modèles qui travaillent ensemble vaut mieux qu'un seul grand modèle qui travaille tout seul.

En résumé, les auteurs ont prouvé que pour comprendre la complexité des histoires humaines, il ne faut pas un seul génie, mais une équipe de génies qui discutent entre eux.