Enhancing Multi-Image Understanding through Delimiter Token Scaling

该论文提出了一种通过缩放分隔符令牌隐藏状态来抑制多图像输入中信息泄漏的方法,在无需额外训练或推理成本的情况下,显著提升了大型视觉语言模型在多图像及多文档理解任务中的表现。

Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常巧妙且“零成本”的方法,用来解决大型人工智能模型(LVLMs)在同时看多张图片时容易“脑子混乱”的问题。

我们可以把这篇论文的核心思想想象成给多张图片贴上“强力标签”

1. 问题:AI 的“串台”现象

想象一下,你让一个 AI 同时看四张不同的照片:一张是猫,一张是狗,一张是车,一张是树。

  • 理想情况:AI 能清楚地把这四张图分开,回答“猫在哪里?”时只盯着猫的照片看。
  • 现实情况:现在的 AI 经常“串台”。当它被问到关于猫的问题时,它可能会把狗照片里的细节也混进来,或者把树的颜色安到车上。这种现象在论文里被称为**“跨图像信息泄露”**(Cross-image information leakage)。这就好比你在听四个不同的人同时说话,结果你把甲说的话和乙说的话混在一起,听成了“甲乙丙丁”的乱炖。

2. 现状:现有的“分隔符”不够强

为了解决这个问题,工程师们给 AI 的输入里加了一些特殊的“分隔符”(Delimiter Tokens)。

  • 比喻:这就像在四张图之间插上了四块透明的玻璃板,试图把它们隔开。
  • 发现:研究人员发现,这些玻璃板虽然存在,但太薄了!光线(也就是信息)还是能穿透过去,导致 AI 还是分不清哪张图是哪张。

3. 解决方案:给“分隔符”注入“超级能量”

这篇论文提出了一种简单得令人惊讶的方法:放大分隔符的“信号”

  • 核心操作:研究人员发现,那些负责分隔图片的特殊符号(分隔符),在 AI 的“大脑”里其实扮演着“吸铁石”的角色。它们会吸引周围图片的注意力。
  • 新方法:他们只是简单地把这些分隔符的“信号强度”(隐藏状态)放大了一倍(或者更多)。
  • 比喻
    • 原本的分隔符像是一个普通的路障,车(信息)还能勉强开过去。
    • 放大后的分隔符变成了一堵厚厚的混凝土墙,甚至像强力磁铁
    • 当 AI 看第一张图时,第一张图里的所有信息都被牢牢地“吸”在第一张图的分隔符上,根本没法跑到第二张图去。

4. 为什么这招这么管用?

这就好比在一个嘈杂的房间里,原本大家说话声音差不多大,你听不清谁在说什么。现在,你给每个说话的人戴上了扩音器,并且规定:

  • 如果你要听“猫”的故事,你就必须把注意力集中在“猫”的扩音器上。
  • 因为“猫”的扩音器声音太大了,其他人在旁边说话的声音(其他图片的信息)就被完全盖住了。

这样,AI 就能非常清晰地知道:“哦,我现在处理的是图片 A 的信息,图片 B 的信息离我很远,我不用管它。”

5. 惊人的效果:免费且高效

这个方法最棒的地方在于:

  • 不需要重新训练:不需要让 AI 重新上学,也不需要给它喂更多的数据。
  • 不需要额外时间:AI 看图片的速度没有变慢。
  • 不需要额外内存:电脑的显存占用也没有增加。
  • 适用范围广:不仅对多张图片有效,对多份文档、多个表格的阅读理解也有效。

总结

这就好比你给 AI 戴上了一副智能眼镜。以前它看多张图时,视野是模糊重叠的;现在,这副眼镜给每张图片都加上了高亮的边框,让 AI 一眼就能分清:“这是图1,那是图2,绝不含糊”。

这是一种用极小的改动(只是调大了一个参数),换取了巨大性能提升的“四两拨千斤”的妙招。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →