NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, comme si nous en discutions autour d'un café.

🎭 Le Défi : Deviner l'Intention derrière un Mot Ambigu

Imaginez que vous racontez une petite histoire à un ami. Soudain, vous utilisez un mot qui a deux sens très différents, comme le mot "ring" (qui peut vouloir dire une bague ou un son de cloche).

Scénario A : "Il a économisé de l'argent pendant des mois. Il veut offrir une bague à sa fiancée." (Ici, "ring" = bague).
Scénario B : "Il a écouté le téléphone. Il entendait le son de la cloche." (Ici, "ring" = son).

Le problème, c'est que parfois, l'histoire est floue. Les humains peuvent hésiter : "Est-ce que c'est une bague ? Ou juste un son ?" Parfois, on est sûr à 100 %, parfois on est à 50/50.

La mission de l'équipe NCL-UoR (ce papier) était de créer un ordinateur capable de lire ces petites histoires et de donner une note de 1 à 5 pour dire : "À quel point cette interprétation du mot semble-t-elle logique pour un humain ?"

C'est comme un juge de concours de cuisine qui doit dire si une recette est "plausible" ou "absurde".

🛠️ Les Trois Approches Testées

L'équipe a essayé trois méthodes différentes pour entraîner leur "juge numérique".

1. La Méthode "Calculatrice" (Méthodes par Embedding)

Imaginez que vous prenez deux phrases et que vous les transformez en deux points sur une carte. Si les points sont proches, c'est que les phrases se ressemblent.

L'idée : L'ordinateur calcule la distance mathématique entre l'histoire et la définition du mot.
Le résultat : C'était un échec cuisant. C'est comme essayer de deviner la fin d'un film en regardant juste deux photos séparées. L'ordinateur ne comprenait pas l'histoire, il ne faisait que comparer des distances. Il a obtenu de très mauvaises notes.

2. La Méthode "L'Élève qui Révise" (Fine-Tuning)

Ici, on prend un grand cerveau d'ordinateur (un modèle comme ELECTRA ou DeBERTa) et on lui fait lire des milliers d'exemples pour qu'il apprenne par cœur les règles. On lui dit : "Regarde, quand l'histoire dit ça, le mot veut dire ça."

Le résultat : Ça a bien mieux marché que la calculatrice. L'ordinateur a commencé à comprendre le contexte. Mais il avait un défaut : il apprenait trop par cœur les exemples d'entraînement et avait du mal avec les nouvelles histoires un peu bizarres. C'est comme un élève qui a réussi ses révisions mais qui panique le jour de l'examen si la question est formulée différemment.

3. La Méthode "Le Juge avec un Guide" (LLM avec Prompting Structuré)

C'est la grande gagnante ! Au lieu de faire apprendre le modèle par cœur, on lui donne un guide de jugement très précis (un "prompt").

L'analogie : Imaginez que vous engagez un juge très intelligent, mais vous lui donnez un manuel d'instructions strict :
1. Regarde le début de l'histoire : est-ce que ça prépare le terrain ?
2. Regarde la phrase avec le mot : est-ce que ça colle ?
3. Le plus important : Regarde la fin de l'histoire. Si la fin contredit le mot, note 1 ou 2. Si la fin confirme le mot, note 5.
Le résultat : C'est le champion du monde. En donnant des règles claires ("Si la fin dit non, alors c'est non"), l'ordinateur a réussi à noter beaucoup plus précisément que s'il avait juste appris par cœur.

💡 Les Découvertes Surprenantes

La taille du cerveau n'est pas tout : On pensait que le plus gros modèle (le plus intelligent) gagnerait. Faux ! Un modèle un peu plus petit (GPT-4o) avec de bonnes instructions a battu un modèle géant (GPT-5) avec de mauvaises instructions.
- Métaphore : Un élève brillant qui ne lit pas l'énoncé de l'examen perd contre un élève moyen qui suit scrupuleusement la méthode de résolution.
Les règles comptent plus que la mémoire : Le secret n'était pas de donner des exemples au modèle ("voici 5 exemples de notes"), mais de lui donner des règles de décision ("si X alors Y"). Cela a permis au modèle de mieux raisonner.
Le piège du milieu : Les notes les plus difficiles à prédire sont celles du milieu (entre 3 et 4). Quand l'histoire est floue, même les humains ne sont pas d'accord, et l'ordinateur a du mal à trancher.

🏆 Conclusion en une phrase

Pour deviner si un mot a du sens dans une histoire, il ne suffit pas de faire des calculs mathématiques ou d'apprendre par cœur ; il faut donner à l'ordinateur un guide de lecture clair qui lui apprend à regarder la fin de l'histoire avant de se prononcer. C'est cette méthode "Juge avec Guide" qui a remporté la victoire.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating", rédigé en français.

1. Problématique et Contexte

La tâche SemEval-2026 Task 5, basée sur le jeu de données AmbiStory, ne se contente pas de désambiguïser le sens d'un mot (WSD classique), mais évalue la plausibilité d'un sens spécifique dans un contexte narratif.

Entrée : Une histoire courte de cinq phrases contenant un homonyme ambigu, accompagnée d'un sens candidat.
Sortie : Une note de plausibilité sur une échelle de 1 à 5 (où 1 signifie "très improbable" et 5 "très plausible"), reflétant le jugement humain.
Structure des données : Chaque histoire comprend un prétexte (3 phrases), une phrase cible contenant l'homonyme, et une phrase de fin qui peut désambiguïser le sens.
Défi : Le modèle doit raisonner de manière compositionnelle à travers le récit pour déterminer si le contexte soutient ou contredit le sens proposé, en tenant compte des nuances et des désaccords potentiels entre annotateurs.

2. Méthodologie

Les auteurs ont comparé systématiquement trois approches distinctes pour résoudre ce problème de régression :

A. Méthodes basées sur les embeddings (Embedding-Based)

Cette approche traite le problème comme une tâche de régression classique utilisant des caractéristiques extraites de vecteurs d'embedding.

Modèles : Utilisation de MPNet et RoBERTa pour générer des embeddings de phrases.
Fonctionnalités : Extraction de 8 à 23 caractéristiques, notamment la similarité cosinus, la distance euclidienne, le produit scalaire, le chevauchement lexicale, et des indicateurs structurels.
Régresseurs : Ces vecteurs de caractéristiques sont alimentés dans des régresseurs classiques (Ridge Regression, XGBoost).
Hypothèse : La similarité statique entre l'histoire et la description du sens suffirait à prédire la plausibilité.

B. Fine-Tuning de Transformers

Cette approche adapte des modèles de langage pré-entraînés via le LoRA (Low-Rank Adaptation) pour la régression.

Architectures : ELECTRA (base et large) et DeBERTa-large.
Stratégies d'entraînement avancées :
- Perte de classement (RankNet) : Ajout d'une perte par paires pour optimiser directement la corrélation de Spearman (l'ordre des prédictions).
- Perte d'incertitude (Uncertainty-aware loss) : Utilisation de l'écart-type des annotateurs comme marge de tolérance. Les erreurs à l'intérieur de la zone de désaccord humain ne sont pas pénalisées, tandis que les erreurs hors de cette zone le sont linéairement.
- Fonctions de perte : Comparaison entre MSE et perte Huber pour la robustesse.

C. Prompting de Grands Modèles de Langage (LLM)

Cette approche utilise le in-context learning sans fine-tuning, en exploitant la capacité de raisonnement des LLM.

Modèles testés : GPT-4o, GPT-4.1, GPT-5 (mini et 5.2), Llama-3, et Ministral.
Stratégies de Prompting :
- P1 (Few-Shot) : Utilisation d'exemples tirés des données d'entraînement avec une température de 0.
- P2 (Prompting Structuré avec Règles de Décision) : Remplacement des exemples par des critères d'évaluation explicites et des règles de calibration. Le modèle est invité à évaluer séparément le prétexte, la phrase cible et la fin, puis à appliquer des règles logiques (ex: "Si la fin contredit le sens, note 1 ou 2"). Le modèle est positionné comme un "évaluateur impartial".

3. Résultats Clés

Les performances sont mesurées par la corrélation de Spearman ( $\rho$ ) et la précision (Acc.) (proportion de prédictions à moins d'un écart-type de la note moyenne).

Échec des méthodes basées sur les embeddings : Ces méthodes ont obtenu les scores les plus faibles ( $\rho < 0.14$ sur le jeu de test), démontrant que les métriques de similarité statique ne capturent pas le raisonnement narratif complexe nécessaire à cette tâche.
Performance du Fine-Tuning : Les modèles fine-tunés (notamment ELECTRA-large et DeBERTa-large avec LoRA) ont surpassé les embeddings, atteignant un $\rho$ d'environ 0.53 sur le test. L'ajout de pertes auxiliaires (incertitude, classement) a amélioré les résultats, mais la généralisation aux homonymes non vus reste limitée.
Supériorité du Prompting Structuré (P2) : L'approche GPT-4o avec le prompt structuré (P2) a obtenu les meilleurs résultats, avec un $\rho = 0.731$ et une précision de 0.794 sur le jeu de test.
- Le passage du prompting few-shot (P1) au prompting structuré (P2) a apporté une amélioration significative (+0.082 en $\rho$ pour GPT-5.2).
- Taille du modèle vs Design du prompt : Un modèle plus petit (GPT-4o) avec un bon prompt a surpassé des modèles plus grands (GPT-5.2) avec un mauvais prompt, indiquant que la conception du prompt est plus critique que l'échelle du modèle pour cette tâche spécifique.

4. Contributions Principales

Stratégie de Prompting Structuré : La contribution majeure est la démonstration qu'un prompt décomposant l'évaluation en composants narratifs (prétexte, cible, fin) et intégrant des règles de décision explicites surpasse largement le fine-tuning et les méthodes d'embeddings.
Analyse de l'impact des règles de calibration : L'étude montre que des règles explicites (ex: "la fin est le facteur le plus important") alignent mieux les prédictions du modèle sur les directives d'annotation humaines.
Comparaison systématique : L'article fournit une comparaison rigoureuse entre trois paradigmes (embeddings, fine-tuning, LLM) sur une tâche de désambiguïsation graduelle, comblant un vide dans la littérature sur la plausibilité des sens.

5. Analyse des Erreurs et Limites

Désaccord des annotateurs : La prédiction est plus difficile lorsque les annotateurs humains sont en désaccord (écart-type élevé), ce qui rend la "vraie" étiquette moins stable.
Biais de discrétisation : Les modèles ont tendance à prédire des valeurs entières (1 à 5) alors que les notes de référence sont continues.
Erreurs catastrophiques : Les modèles échouent souvent lorsque le prétexte prime fortement un sens, mais que la fin en confirme un autre (ou vice-versa), montrant une difficulté à équilibrer les indices contextuels contradictoires.
Limites : La méthode dépend fortement de la formulation du prompt et est actuellement limitée aux récits en anglais.

6. Signification et Conclusion

Ce travail démontre que pour les tâches de compréhension narrative fine et de jugement de plausibilité, la qualité du raisonnement guidé par le prompt (Prompt Engineering) est supérieure à la simple capacité de modélisation par fine-tuning. Les règles de décision explicites permettent aux LLM de mieux simuler le processus de jugement humain, en particulier pour les cas ambigus. L'article suggère que l'avenir de ces tâches réside dans des méthodes hybrides combinant la robustesse des modèles fine-tunés et la capacité de raisonnement structuré des LLM.