AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

本文介绍了 AILS-NTUA 团队在 SemEval-2026 任务 10 中提出的一种新型代理大语言模型流水线,该方案通过动态判别思维链(DD-CoT)和“反回声室”架构分别解决心理语言学标记提取与阴谋论支持检测中的语义歧义及客观报告误判问题,并在两个子任务中显著提升了性能指标。

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个由雅典国立技术大学(NTUA)团队开发的AI 系统,专门用来做两件事:

  1. 揪出阴谋论的“蛛丝马迹”(比如谁在策划、做了什么、受害者是谁)。
  2. 判断这段话是不是真的在“相信”阴谋论,还是仅仅在“报道”阴谋论。

为了让你更容易理解,我们可以把整个系统想象成一个高科技的“侦探事务所”,专门处理互联网上的谣言和阴谋论。

🕵️‍♂️ 核心挑战:AI 也会“人云亦云”

以前的 AI 就像是一个刚入行的实习记者

  • 如果看到文章说“有人声称地球是平的”,实习记者可能会误以为作者在相信地球是平的,于是给文章贴上“阴谋论”的标签。
  • 但实际上,作者可能只是在报道这个荒谬的说法,或者在讽刺它。
  • 这就叫“记者陷阱”(Reporter Trap):把“提到阴谋论”和“支持阴谋论”搞混了。

此外,AI 还经常指鹿为马。比如在被动句“公众被媒体操纵了”中,普通 AI 可能会把“公众”当成幕后黑手(Actor),但实际上“媒体”才是那个操纵者。

🏛️ 解决方案:一个分工明确的“侦探团队”

为了解决这些问题,作者没有训练一个超级大脑,而是设计了一个多智能体(Agentic)流水线。你可以把它想象成一个法庭侦探事务所,里面有几个性格迥异的专家在协同工作。

第一阶段:S1 —— “法医取证组” (提取线索)

任务:从长文中精准地找出阴谋论的关键词句(比如“谁”、“做了什么”、“后果”)。

  • 传统做法:让 AI 直接读文章并圈出重点。AI 经常圈错位置,或者把整句话都圈进去(太长了),甚至把没发生的事也圈出来(幻觉)。
  • 他们的创新(DD-CoT)
    • 动态辩论:AI 在圈出线索前,必须先自我辩论。它不仅要说出“为什么这是线索”,还要强行想出一个反方观点(比如:“为什么这不是受害者而是策划者?”)。这就像让侦探在抓人前先问自己:“我是不是搞错了?”
    • 铁面无私的“校对员”:AI 圈出的文字,必须逐字逐句和原文完全匹配。如果 AI 想自己改写几个字,系统会直接驳回。这就像法医在提取指纹,必须保证指纹是原封不动的,不能有任何修饰。

第二阶段:S2 —— “反回声室法庭” (判断立场)

任务:判断这段话是“相信阴谋论”还是“客观报道”。

  • 传统做法:让 AI 直接给个结论。AI 容易受情绪影响,或者看到“阴谋”两个字就兴奋,导致误判。
  • 他们的创新(反回声室架构)
    • 平行陪审团(Parallel Council):系统不会只问一个 AI,而是同时派出四个性格不同的陪审员,他们互不串通,独立投票:
      1. 检察官 (Prosecutor):专门找“有罪证据”。只要看到一点阴谋论的味道,就主张“这是阴谋论”。
      2. 辩护律师 (Defense Attorney):专门找“无罪证据”。他会仔细看:“等等,这句话里有没有‘据说’、‘声称’、‘据报道’?如果有,那作者只是在转述,不是相信。”
      3. 字面主义者 (Literalist):只看字面意思,不看潜台词。如果作者没明说,就判无罪。
      4. 侧写师 (Profiler):分析语气和心理学特征。比如作者是不是在用极端词汇煽动情绪?
    • 校准法官 (Calibrated Judge):最后,一位法官听取四个陪审员的辩论。如果四个陪审员吵得不可开交(比如 2 比 2),或者证据模棱两可,法官会采取保守策略:宁可放过一个可疑的,也不冤枉一个客观报道的(默认判“非阴谋论”)。

🎯 为什么这个系统很厉害?

  1. 把“思考”和“定位”分开了

    • 以前的 AI 既要思考“这是什么”,又要负责“在哪里”,容易顾此失彼。
    • 这个系统让 AI 只管思考(找逻辑),让一个死板的程序(确定性验证器)只管找位置(确保文字完全匹配)。就像让侦探负责推理,让书记员负责记录,互不干扰。
  2. 专门对付“记者陷阱”

    • 通过让“辩护律师”专门寻找“据报道”、“声称”等词汇,系统成功学会了区分“有人在撒谎”和“有人在报道谎言”。
  3. 结果惊人

    • 在任务 1(找线索)上,他们的表现比基础模型提升了一倍(从 0.12 涨到 0.24)。
    • 在任务 2(判断立场)上,表现提升了49%(从 0.53 涨到 0.79)。
    • 在开发榜上排名第 3,在测试榜上排名第 10(非常接近第一名)。

🚧 还有什么不足?

虽然这个系统很聪明,但它也有“盲区”:

  • 高级讽刺和反讽:如果有人在用极其夸张的语气模仿阴谋论者来嘲笑他们(比如“哦,当然,地球肯定是平的,毕竟我们都在被外星人控制”),AI 有时候还是会分不清这是在开玩笑还是在信以为真。这就像人类有时候也分不清朋友是在开玩笑还是真生气一样。
  • 缺乏上下文:它只看单篇文章,不知道作者以前发过什么,也不知道这条评论是在什么话题下发的。如果能看到更多背景信息,它可能会更准。

💡 总结

这篇论文的核心思想是:不要指望一个超级 AI 全能,不如让一群各司其职的 AI 专家互相“吵架”和“制衡”。

通过让 AI 扮演不同的角色(检察官、律师、法官),并强制它们进行自我辩论和严格校对,这个系统成功地在复杂的网络语言中,精准地揪出了阴谋论的“真身”,同时避免了误伤那些客观报道新闻的好人。这就像给 AI 装上了一套防错机制多角度思考系统