Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

本文提出了分布式部分信息谜题(DPIP)及其多模态数据集,旨在研究多主体协作中的共同构建问题,并通过对比大语言模型与基于动态认知逻辑的公理管道,揭示了当前大模型在追踪任务进展和信念状态方面仍面临显著挑战。

Yifan Zhu, Mariah Bradford, Kenneth Lai, Timothy Obiso, Videep Venkatesha, James Pustejovsky, Nikhil Krishnaswamy

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何在一群人互相不知道对方手里有什么牌的情况下,共同完成一个拼图任务”**的研究。

为了让你更容易理解,我们可以把这项研究想象成一场**“蒙眼搭积木”的特别游戏,以及科学家们如何测试现在的AI(人工智能)**能不能像人类一样聪明地玩这个游戏。

1. 核心游戏:分布式信息拼图 (DPIP)

想象一下,你和三个朋友围坐在一张桌子旁,桌上有一堆乐高积木。你们的目标是搭出一个特定的城堡。

  • 规则很特别:
    • 你们四个人里,有三个“指挥官”(Directors),每个人手里只有一张侧面的照片(比如有人只看到城堡的正面,有人只看到侧面,有人只看到背面)。他们看不到完整的城堡长什么样,也不能动手搭积木。
    • 只有一个“建筑工”(Builder)可以动手搭积木,但他看不到任何照片,只能听指挥官们的指挥。
    • 挑战在于: 指挥官们必须通过说话、指指点点(手势),甚至观察建筑工的动作,来告诉建筑工怎么搭。而且,因为每个人手里的照片不一样,他们看到的“真相”是片面的,甚至可能是冲突的。

这个游戏的难点是什么?
这就好比你们在拼一个巨大的拼图,但每个人只拿到了其中一小块,而且每个人拿到的那一块,还只能看到拼图的一角。你们必须互相交流,把各自脑子里的“碎片信息”拼凑成一个共同的想法(Common Ground),才能把城堡搭对。

2. 科学家做了什么?

为了研究人类(以及未来的 AI)是怎么玩这种游戏的,研究团队做了三件事:

  1. 录制了真实的人类游戏过程:
    他们找了几组人玩这个游戏,并用摄像机录下了全过程。他们不仅记录了大家说了什么,还记录了大家做了什么动作(比如把哪块积木放哪了),以及比划了什么手势(比如指着某处说“这里”)。

    • 比喻: 就像给这场游戏拍了一部高清纪录片,连每个人眨眼、指手指的瞬间都记录下来了。
  2. 给数据做了“翻译”和标注:
    他们把这些视频里的说话、手势和动作,一点点拆解成计算机能看懂的“逻辑语言”。比如,把“把红色的块放在蓝色的上面”这句话,转化成计算机能理解的指令。

  3. 测试 AI 的智商:
    他们把两个东西拉来“考试”:

    • 现代大语言模型(LLM): 就像现在的 ChatGPT 或 Qwen 这类超级 AI。
    • 一套严格的逻辑公式(公理系统): 就像用数学公式一步步推导,假设“看到即相信”、“说话即表达信念”等规则。

3. 考试结果:AI 表现如何?

科学家让 AI 看着这些视频记录,试着回答两个问题:

  1. 现在的积木搭成什么样了?(预测结构)
  2. 大家现在心里达成了什么共识?(预测共同信念)

结果有点让人意外:

  • AI 有点“晕”: 即使是现在最厉害的 AI(比如 GPT-5 或 Qwen),在面对这种多人、多模态(说话 + 动作 + 手势)、信息不对称的复杂场景时,表现并不完美。

    • 如果只给 AI 看“动作记录”,它还能猜个大概。
    • 但如果把说话、手势、动作全给它,它反而有时候更糊涂了,就像一个人听太多信息反而不知道重点在哪。
    • 特别是在预测“大家心里达成了什么共识”时,AI 经常猜错,它以为大家达成了共识,其实大家还在互相误解。
  • 逻辑公式反而更稳: 那个基于严格数学逻辑的“公理系统”,在预测积木最终搭成什么样时,表现甚至有时候比大 AI 还要好。这说明,对于这种需要严密逻辑推理的任务,死板的规则有时候比灵活的 AI 更靠谱。

4. 这个研究意味着什么?

这篇论文其实是在给现在的 AI 泼一盆冷水,同时也指明了方向:

  • 目前的 AI 还不够“懂”人类: 现在的 AI 很擅长写文章、聊天,但在真实的、复杂的、大家各怀心思的团队合作中,它们还很难像人类一样,通过观察眼神、手势和只言片语,瞬间理解“我们现在的共同目标是什么”。
  • 未来的挑战: 真正的智能不仅仅是会说话,而是要能在信息不全的情况下,通过多模态(看、听、做)去建立共同的理解
  • 数据宝藏: 他们公开的这个“乐高积木游戏”数据集,就像是一个训练 AI 的“高级驾校”。以后想研究 AI 怎么跟人合作、怎么理解团队动态,就可以用这个数据来练手。

总结

简单来说,这篇论文设计了一个**“盲人摸象”式的乐高游戏**,发现现在的AI 虽然聪明,但在处理这种“大家手里牌不一样、还要靠手舞足蹈来沟通”的复杂团队合作时,还很容易“翻车”。这提醒我们,要让 AI 真正融入人类团队,还需要在理解上下文、观察非语言线索建立共同信念方面做更多努力。