AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个由雅典国立技术大学（NTUA）团队开发的AI 系统，专门用来做两件事：

揪出阴谋论的“蛛丝马迹”（比如谁在策划、做了什么、受害者是谁）。
判断这段话是不是真的在“相信”阴谋论，还是仅仅在“报道”阴谋论。

为了让你更容易理解，我们可以把整个系统想象成一个高科技的“侦探事务所”，专门处理互联网上的谣言和阴谋论。

🕵️‍♂️ 核心挑战：AI 也会“人云亦云”

以前的 AI 就像是一个刚入行的实习记者。

如果看到文章说“有人声称地球是平的”，实习记者可能会误以为作者在相信地球是平的，于是给文章贴上“阴谋论”的标签。
但实际上，作者可能只是在报道这个荒谬的说法，或者在讽刺它。
这就叫“记者陷阱”（Reporter Trap）：把“提到阴谋论”和“支持阴谋论”搞混了。

此外，AI 还经常指鹿为马。比如在被动句“公众被媒体操纵了”中，普通 AI 可能会把“公众”当成幕后黑手（Actor），但实际上“媒体”才是那个操纵者。

🏛️ 解决方案：一个分工明确的“侦探团队”

为了解决这些问题，作者没有训练一个超级大脑，而是设计了一个多智能体（Agentic）流水线。你可以把它想象成一个法庭或侦探事务所，里面有几个性格迥异的专家在协同工作。

第一阶段：S1 —— “法医取证组” (提取线索)

任务：从长文中精准地找出阴谋论的关键词句（比如“谁”、“做了什么”、“后果”）。

传统做法：让 AI 直接读文章并圈出重点。AI 经常圈错位置，或者把整句话都圈进去（太长了），甚至把没发生的事也圈出来（幻觉）。
他们的创新（DD-CoT）：
- 动态辩论：AI 在圈出线索前，必须先自我辩论。它不仅要说出“为什么这是线索”，还要强行想出一个反方观点（比如：“为什么这不是受害者而是策划者？”）。这就像让侦探在抓人前先问自己：“我是不是搞错了？”
- 铁面无私的“校对员”：AI 圈出的文字，必须逐字逐句和原文完全匹配。如果 AI 想自己改写几个字，系统会直接驳回。这就像法医在提取指纹，必须保证指纹是原封不动的，不能有任何修饰。

第二阶段：S2 —— “反回声室法庭” (判断立场)

任务：判断这段话是“相信阴谋论”还是“客观报道”。

传统做法：让 AI 直接给个结论。AI 容易受情绪影响，或者看到“阴谋”两个字就兴奋，导致误判。
他们的创新（反回声室架构）：
- 平行陪审团（Parallel Council）：系统不会只问一个 AI，而是同时派出四个性格不同的陪审员，他们互不串通，独立投票：
  1. 检察官 (Prosecutor)：专门找“有罪证据”。只要看到一点阴谋论的味道，就主张“这是阴谋论”。
  2. 辩护律师 (Defense Attorney)：专门找“无罪证据”。他会仔细看：“等等，这句话里有没有‘据说’、‘声称’、‘据报道’？如果有，那作者只是在转述，不是相信。”
  3. 字面主义者 (Literalist)：只看字面意思，不看潜台词。如果作者没明说，就判无罪。
  4. 侧写师 (Profiler)：分析语气和心理学特征。比如作者是不是在用极端词汇煽动情绪？
- 校准法官 (Calibrated Judge)：最后，一位法官听取四个陪审员的辩论。如果四个陪审员吵得不可开交（比如 2 比 2），或者证据模棱两可，法官会采取保守策略：宁可放过一个可疑的，也不冤枉一个客观报道的（默认判“非阴谋论”）。

🎯 为什么这个系统很厉害？

把“思考”和“定位”分开了：
- 以前的 AI 既要思考“这是什么”，又要负责“在哪里”，容易顾此失彼。
- 这个系统让 AI 只管思考（找逻辑），让一个死板的程序（确定性验证器）只管找位置（确保文字完全匹配）。就像让侦探负责推理，让书记员负责记录，互不干扰。
专门对付“记者陷阱”：
- 通过让“辩护律师”专门寻找“据报道”、“声称”等词汇，系统成功学会了区分“有人在撒谎”和“有人在报道谎言”。
结果惊人：
- 在任务 1（找线索）上，他们的表现比基础模型提升了一倍（从 0.12 涨到 0.24）。
- 在任务 2（判断立场）上，表现提升了49%（从 0.53 涨到 0.79）。
- 在开发榜上排名第 3，在测试榜上排名第 10（非常接近第一名）。

🚧 还有什么不足？

虽然这个系统很聪明，但它也有“盲区”：

高级讽刺和反讽：如果有人在用极其夸张的语气模仿阴谋论者来嘲笑他们（比如“哦，当然，地球肯定是平的，毕竟我们都在被外星人控制”），AI 有时候还是会分不清这是在开玩笑还是在信以为真。这就像人类有时候也分不清朋友是在开玩笑还是真生气一样。
缺乏上下文：它只看单篇文章，不知道作者以前发过什么，也不知道这条评论是在什么话题下发的。如果能看到更多背景信息，它可能会更准。

💡 总结

这篇论文的核心思想是：不要指望一个超级 AI 全能，不如让一群各司其职的 AI 专家互相“吵架”和“制衡”。

通过让 AI 扮演不同的角色（检察官、律师、法官），并强制它们进行自我辩论和严格校对，这个系统成功地在复杂的网络语言中，精准地揪出了阴谋论的“真身”，同时避免了误伤那些客观报道新闻的好人。这就像给 AI 装上了一套防错机制和多角度思考系统。

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

🕵️‍♂️ 核心挑战：AI 也会“人云亦云”

🏛️ 解决方案：一个分工明确的“侦探团队”

第一阶段：S1 —— “法医取证组” (提取线索)

第二阶段：S2 —— “反回声室法庭” (判断立场)

🎯 为什么这个系统很厉害？

🚧 还有什么不足？

💡 总结

1. 问题背景与挑战

2. 方法论：双阶段代理流水线

2.1 子任务 1：基于 DD-CoT 的标记提取

2.2 子任务 2：反回声室架构 (Anti-Echo Chamber)

3. 关键贡献

4. 实验结果

5. 意义与局限性

总结

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

🕵️‍♂️ 核心挑战：AI 也会“人云亦云”

🏛️ 解决方案：一个分工明确的“侦探团队”

第一阶段：S1 —— “法医取证组” (提取线索)

第二阶段：S2 —— “反回声室法庭” (判断立场)

🎯 为什么这个系统很厉害？

🚧 还有什么不足？

💡 总结

1. 问题背景与挑战

2. 方法论：双阶段代理流水线

2.1 子任务 1：基于 DD-CoT 的标记提取

2.2 子任务 2：反回声室架构 (Anti-Echo Chamber)

3. 关键贡献

4. 实验结果

5. 意义与局限性

总结

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models