COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

本文介绍了 COGNAC 系统在 SemEval-2026 第 5 项任务中的表现,该任务利用多种提示策略的闭源大语言模型集成方案,在评估短故事中同义词义项的人类合理性评分方面取得了接近人类水平的优异成绩。

Azwad Anjum Islam, Tisa Islam Erana

发布于 Wed, 18 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于“让 AI 读懂人类故事中的歧义”的有趣实验。为了让你轻松理解,我们可以把这项任务想象成一场“故事侦探大赛”

1. 比赛背景:故事里的“一词多义”陷阱

想象一下,你正在读一个短篇故事。故事里有一个词,比如“银行”。

  • 它可能指“存钱的地方”(金融)。
  • 它也可能指“河边的堤岸”(地理)。

在现实故事中,这两个意思可能同时都有道理,或者根据上下文,一个比另一个更合理一点点。人类读者对此的看法往往不一致:有人觉得是 5 分(完全合理),有人觉得是 3 分(有点牵强),有人觉得是 1 分(完全不可能)。

SemEval-2026 的任务就是:给 AI 一个故事和这个词,让 AI 像人类评委一样,给这个词的某种解释打分(1 到 5 分)。

  • 难点:没有标准答案!因为人类评委自己都没达成一致(有的说 1 分,有的说 5 分)。AI 的目标不是猜对“唯一真理”,而是猜出人类评委的平均看法

2. 我们的策略:三个“侦探”招数

作者团队(来自佛罗里达国际大学)用了六款(后来扩展到十款)最聪明的 AI 模型(像 GPT-5、Gemini 等),并尝试了三种不同的“提问方式”来训练这些侦探:

招数一:零-shot(直接问)

就像直接问侦探:“你觉得这个词在这里是什么意思?打几分?”

  • 效果:这是基础操作,AI 凭直觉回答。

招数二:思维链(CoT,像写日记)

要求侦探在打分前,先写一段“推理日记”:

  1. 故事背景是什么?
  2. 这个词在语法上起什么作用?
  3. 它和故事结局搭不搭?
  4. 有没有其他可能的意思?
  5. 最后再打分。
  • 结果:这招并没有像预期那样变强。因为人类对故事的直觉往往是模糊的、感性的,而强迫 AI 一步步理性分析,反而让它变得太“死板”,偏离了人类那种“凭感觉”的判断。

招数三:对比法(像“二选一”辩论)

这是最厉害的一招
作者不再让 AI 单独给一个意思打分,而是把两个可能的意思(比如“银行”的金融义和地理义)同时摆在 AI 面前,问它:“这两个意思,哪个更合理?分别打几分?”

  • 为什么有效:这就像让评委在两个候选人之间做比较,而不是孤立地评价一个人。这更符合人类在模糊情境下的思考方式。结果证明,这种“对比打分”让 AI 的表现突飞猛进。

3. 终极绝招:组建“侦探联盟”(模型集成)

这是论文最核心的发现。
作者发现,单个 AI 模型(哪怕是最强的)在面对人类这种“众口难调”的主观判断时,很容易“偏科”或“走偏”。

  • 比喻:如果只有一个侦探,他可能只擅长看刑侦剧,不擅长看爱情片。
  • 解决方案:作者把所有不同模型、不同提问方式的预测结果平均一下
    • 比如:模型 A 打了 3 分,模型 B 打了 4 分,模型 C 打了 2 分。
    • 联盟最终得分 = (3+4+2) / 3 = 3.33 分

神奇的效果
这个“侦探联盟”的表现,竟然比任何单个最强大的 AI 都要好!

  • 甚至,把三个最弱的模型凑在一起,它们的平均表现都能打败最强的单个模型。
  • 这就像:三个普通人的意见加在一起,往往比一个天才的“独断专行”更接近大众的真实想法。

4. 比赛成绩:从第 4 名到“平起平坐”

  • 官方成绩:他们的系统(COGNAC)在 400 多支队伍中拿了第 4 名
  • 赛后加强:比赛结束后,他们又加了 4 个新模型,重新算了一次“联盟平均分”。结果发现,这个加强版的联盟得分,直接追平了第 1 名的水平!
  • 数据:他们的准确率达到了 92%,几乎完美地模拟了人类评委的平均看法。

5. 核心启示:为什么这很重要?

这篇论文告诉我们一个深刻的道理:
在处理主观、模糊、充满争议的任务(比如评价故事、艺术、情感)时,不要指望找一个“超级大脑”来一锤定音
相反,“三个臭皮匠,顶个诸葛亮”。通过让多个 AI 模型互相“投票”和“平均”,我们反而能得到最接近人类集体智慧的判断。

总结一句话
面对人类模棱两可的故事,单个 AI 容易“钻牛角尖”,但把一群 AI 凑在一起“开研讨会”,它们就能完美模仿人类的“众口难调”,成为最懂人心的评委。