MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

该论文提出了一种名为 MAP 的免训练解码方法,通过将模型隐藏状态视为二维语义地图并引入层间交错注意力与全局 - 局部 Logit 融合机制,有效利用广泛分布的事实信息以缓解大型视觉语言模型中的幻觉问题。

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 MAP(Map-Level Attention Processing,即“地图级注意力处理”)的新方法,旨在解决大型视觉 - 语言模型(LVLM)中常见的“幻觉”问题。

为了让你轻松理解,我们可以把大模型想象成一个正在看画并试图描述它的“超级画家”

1. 什么是“幻觉”?

想象一下,你给这位画家看一张只有猫的照片,问他:“画里有什么?”

  • 正常回答:“有一只猫。”
  • 幻觉回答:“有一只猫,旁边还有一只狗,狗在吃骨头。”(其实画里根本没有狗和骨头)。

这种“无中生有”或“张冠李戴”的现象,就是幻觉。在医疗、自动驾驶等严肃领域,这种错误是致命的。

2. 以前的方法有什么局限?

以前的科学家在试图纠正画家的错误时,主要关注两个方向:

  • 纵向检查(层间):像是一个监工,只盯着画家画画的第 1 层第 32 层(模型的不同深度)进行对比。如果第 1 层说“有猫”,第 32 层说“有狗”,监工就介入纠正。
  • 横向检查(层内):像是一个细节控,只盯着当前这一层里的每一个笔触(Token)看,看看有没有画错的地方。

问题在于:这些方法就像是在一维的走廊里找线索,他们忽略了画家脑子里其实有一张巨大的、立体的“思维地图”。这张地图里,关于“猫”的真实信息其实散落在各个角落,既不在单纯的“第几层”,也不在单纯的“第几个词”里,而是散布在整个二维空间中

3. MAP 方法的核心创意:把思维变成“地图”

这篇论文的作者发现,如果我们把模型所有的“思考痕迹”(隐藏状态)重新排列,不再看作是一条线,而是一张二维的“语义地图”(就像一张城市地图,横轴是时间/词序,纵轴是思考的深度/层数)。

  • 发现:通过“探照灯”(Logit Lens)扫描这张地图,作者发现,那些真实的、正确的信息(比如“猫”),其实广泛地散布在这张地图的各个区域,而不仅仅是某个特定的点。
  • 比喻:以前的方法像是在单行道上找路,而 MAP 方法是直接打开无人机,俯瞰整个城市(2D 地图),发现正确的线索其实到处都是。

4. MAP 是怎么工作的?(两大法宝)

为了解决幻觉,MAP 给这位“画家”配备了两个新工具:

法宝一:层层交叉的“十字绣”注意力 (Layer-Wise Criss-Cross Attention)

  • 原理:当画家要写下一个词时,MAP 不会只让他看“上一句”或“上一层”。相反,它让画家在这张 2D 地图上,同时向**上下(不同层)左右(不同词)**两个方向“张望”。
  • 比喻:就像你在织十字绣。以前的方法只让你看横向的线或纵向的线。MAP 让你同时看横线和竖线的交叉点。通过这种“十字交叉”的视角,画家能瞬间从地图的各个角落收集到关于“猫”的碎片信息,把它们拼凑起来,从而确认:“哦,这里确实有猫,没有狗!”
  • 效果:这种“交叉扫描”能更精准地提取出分散在地图各处的真实信息,抑制那些凭空想象的错误。

法宝二:全局与局部的“双保险”融合 (Global-Local Logit Fusion)

  • 原理:在最终决定输出什么词时,MAP 会同时参考两个视角:
    1. 局部视角:只看眼前最具体的细节(比如“猫”的胡须)。
    2. 全局视角:看整张地图的大环境(比如“这是一只猫,不是狗”的整体氛围)。
  • 比喻:就像老练的侦探
    • 局部视角像放大镜,看清指纹(细节)。
    • 全局视角像案卷背景,知道嫌疑人是谁(整体语境)。
    • MAP 把这两份报告加权平均,既保留了细节的准确性,又不会偏离大方向。实验证明,有时候局部看对了但全局错了,或者反过来,两者结合最稳妥。

5. 为什么这很厉害?

  • 不需要重新训练:这就像给画家戴了一副新眼镜,而不是让他重新上学。不需要花费巨资去重新训练模型,直接在“推理”(画画)过程中使用即可。
  • 通用性强:不管画家是新手(小模型)还是大师(大模型),戴上这副眼镜都能画得更准。
  • 效率高:虽然看起来要扫描整张地图,但作者设计得很聪明,计算量并没有增加太多,甚至比以前的一些笨重方法更快。

总结

这篇论文的核心思想就是:不要只盯着一条线看,要把模型的思考过程看作一张立体的“地图”。

通过在这张地图上纵横交错地寻找线索(十字注意力),并结合宏观与微观的视角(全局局部融合),MAP 成功地让大模型“看清”了事实,减少了“瞎编乱造”的幻觉,让 AI 在描述图片时变得更加诚实和可靠。