NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

本文介绍了 NCL-UoR 团队在 SemEval-2026 任务 5 中的研究,通过系统比较嵌入方法、微调模型和大型语言模型,发现采用结构化提示与显式决策规则的组合策略在词义合理性评分任务中表现最佳,且提示设计的重要性超过了模型规模。

Tong Wu, Thanet Markchom, Huizhi Liang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是参加一个叫 SemEval-2026 的“语言理解大赛”(任务 5)的故事。

想象一下,你正在读一个很短的英文故事,故事里有一个词特别“狡猾”,它有好几种意思(比如"ring"可以指“戒指”,也可以指“铃声”)。你的任务是:根据故事的情节,判断在这个特定的故事里,这个词的某种特定意思到底合不合理?

你需要给这个“合理性”打分,从 1 分(完全不合理,像天方夜谭)到 5 分(非常合理,完全符合逻辑)。

这篇论文的作者团队(来自英国雷丁大学和纽卡斯尔大学等)尝试了三种不同的“解题策略”,看看哪种最能猜中人类评委心里的分数。

三种“解题策略”大比拼

1. 策略一:老派“找相似”法(Embedding-Based)

  • 怎么做: 这种方法就像是一个拿着放大镜找共同点的图书管理员。它把故事和词义都变成一串数字(向量),然后计算它们有多“像”。
  • 比喻: 就像你问:“这个故事和‘戒指’这个词像不像?”如果像,就给高分。
  • 结果: 惨败。 这种方法太死板了。它只看表面上的相似,看不懂故事里的起承转合。就像你只看了故事的开头,完全没读结尾,所以根本猜不对。

2. 策略二:死记硬背的“特训生”(Fine-Tuning)

  • 怎么做: 这种方法像是请了一位聪明的学生(AI 模型),给他看几千个例子,让他通过刷题来学习。我们用了特殊的训练技巧(LoRA),让他更灵活地适应这个任务。
  • 比喻: 就像你给一个学生看了一万道“故事 + 词义 + 分数”的题,让他背下规律。
  • 结果: 表现不错,但不够完美。 这个学生确实学会了大部分规律,分数比第一种方法高很多。但是,一旦遇到没见过的“怪题”或者故事结构稍微变一下,他就容易晕头转向,发挥不稳定。

3. 策略三:带“说明书”的“超级顾问”(LLM Prompting)

  • 怎么做: 这是获胜的秘诀。作者没有让 AI 去死记硬背,而是给 AI(比如 GPT-4o)写了一份超级详细的“评分指南”(结构化提示词)
    • 指南内容: 告诉 AI 不要只看一眼,要像侦探一样分三步走:
      1. 看开头: 故事背景暗示了什么?
      2. 看中间: 那个词在句子里用得通吗?
      3. 看结尾: 结局有没有“实锤”证明这个词是这个意思?(这是最重要的!)
    • 规则: 如果结尾完全否定了这个词的意思,直接打 1 分;如果模棱两可,就打个低分;只有证据确凿才打 5 分。
  • 比喻: 这就像你雇佣了一位经验丰富的老侦探。你不需要教他背案例,你只需要给他一本《侦探办案手册》,告诉他:“遇到这种情况,先查 A,再查 B,最后看 C,如果 C 是反的,直接判死刑。”
  • 结果: 大获全胜! 这位“老侦探”不仅分数最高,而且最稳定。

核心发现:方法比“个头”更重要

这篇论文最有趣的结论是:对于这种需要逻辑推理的任务,怎么“提问”(Prompt Design)比模型“个头”有多大(Model Scale)更重要。

  • 例子: 作者用了一个稍微小一点的模型(GPT-4o),但配上完美的“侦探手册”,结果打败了一个个头更大、更聪明的模型(GPT-5.2),只要那个大模型没有配上好的“手册”。
  • 启示: 就像给一个普通人一本完美的操作指南,他可能比一个没受过训练的天才干得更好。

为什么有些题还是很难?

作者也发现了一些“翻车”现场:

  1. 人类自己都吵起来了: 如果人类评委对这个故事的理解本身就分歧很大(有的觉得合理,有的觉得不合理),AI 就很难猜出标准答案。
  2. 中间地带最难: 1 分和 5 分通常很明显(要么完全对,要么完全错),但 3 分或 4 分这种“有点对又有点不对”的中间地带,AI 最容易犯错。
  3. 被开头误导: 有时候故事开头铺垫得太好,让 AI 以为词义是 A,结果结尾突然反转说是 B。AI 容易“死脑筋”,被开头带偏,忽略了结尾的真相。

总结

这篇论文告诉我们,在处理复杂的语言逻辑任务时,不要只依赖让 AI“死记硬背”或“单纯计算相似度”

最好的办法是给 AI 一套清晰的思维框架和明确的判断规则(就像给侦探一本手册),让它学会像人类一样分步骤、有逻辑地去分析故事的开头、中间和结尾。只要“方法”对头,哪怕模型不是最顶级的,也能拿到冠军。

最终成绩: 他们的系统(GPT-4o + 结构化提示词)在测试中拿到了 0.731 的相关性分数(满分 1),是当时表现最好的系统之一。代码已经公开,任何人都可以去学习这套“侦探手册”。