AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

本文提出了 AdaIAT 方法,通过自适应地增强生成文本对图像令牌的注意力权重,在有效降低大视觉语言模型幻觉率的同时避免了描述重复并保持了语言连贯性。

Li'an Zhong, Ziqiang He, Jibin Zheng, Jin Li, Z. Jane Wang, Xiangui Kang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让大型视觉语言模型(LVLM,即能看图说话的 AI)非常头疼的问题:“幻觉”

简单来说,就是 AI 看图时,经常“瞎编乱造”。比如图里只有一只猫,它却非要说旁边还有一条狗,或者把红色的球说成蓝色的。

为了解决这个问题,以前的方法有点像“死盯着图片看”,但结果往往导致 AI 说话变得像“复读机”,只会反复说“这是一只猫,这是一只猫”。

这篇论文提出了一种新招数:“多听听自己刚才说了什么”

下面我用几个生动的比喻来解释他们是怎么做的:

1. 核心问题:为什么以前的方法会“变傻”?

想象一下,你让一个**导游(AI)**带你看展览(图片)。

  • 以前的方法(PAI/HGAI): 为了防止导游乱指(幻觉),你给他戴上了一个超级放大镜,强迫他死死盯着展品(图片像素)。
  • 后果: 导游确实不乱指了,但他因为太专注于眼前的展品,忘了自己刚才说了什么。于是,他每走一步就重复一遍:“看,这是展品。看,这是展品。”语言变得非常啰嗦、重复,失去了连贯性。

2. 新发现:其实“刚才说的话”很有用

研究人员观察发现了一个有趣的现象:

  • 当导游说对了(描述真实的物体)时,他不仅在看展品,还会回顾自己刚才说的话,把上下文结合起来。
  • 当导游说错了(产生幻觉)时,他往往忽略了刚才说的话,只顾着瞎猜。

比喻: 就像你在写文章,当你写对的时候,你会参考前文保持逻辑通顺;当你开始胡编乱造时,往往是因为你脱离了上下文,开始“飘”了。

3. 解决方案一:IAT(增加对“已生成文本”的关注)

基于上面的发现,研究人员提出了IAT策略。

  • 做法: 不再只给“图片”开放大镜,而是给**“导游刚才说过的话”**也开一个放大镜。
  • 效果: 强迫 AI 在生成下一个字时,多参考一下自己刚才说了什么。
  • 比喻: 这就像给导游配了一个**“记事本”**。他每说一句话,都要看一眼记事本,确保自己没跑题,也没重复。这样既减少了瞎编(幻觉),又让语言变得通顺、不啰嗦。

4. 解决方案二:AdaIAT(智能自适应版)

虽然 IAT 很好,但如果不管什么时候都强行让 AI 看记事本,可能会干扰它正常的思考,甚至让它变得太死板。

  • 问题: 就像你开车时,如果不管路况好坏都死死盯着后视镜,反而容易出事故。
  • 改进(AdaIAT): 他们设计了一个**“智能交警”**系统。
    1. 看时机(层间阈值): 只有当系统检测到导游“眼神飘忽”(注意力不足,可能要开始瞎编了)时,才启动“看记事本”的指令。如果导游表现正常,就不打扰他。
    2. 看对象(自适应放大): 不同的“大脑区域”(注意力头)负责不同的任务。有的区域容易犯错,就多给点提示;有的区域很稳,就少给点提示。
  • 比喻: 这就像一位经验丰富的教练。平时让运动员自由发挥,只有当教练发现运动员动作变形(可能产生幻觉)时,才轻轻点拨一下,而且点拨的力度是根据运动员的具体情况定制的。

5. 最终效果:完美的平衡

通过实验,这种新方法(AdaIAT)取得了很好的效果:

  • 减少幻觉: AI 瞎编乱造的情况大幅减少(比如 LLaVA-1.5 模型减少了 35% 以上的幻觉)。
  • 保持文采: 说话不再像复读机,语言丰富、流畅,和正常人类说话一样自然。
  • 准确率高: 既没瞎编,也没说错,真正做到了“看图说话”的精准。

总结

这篇论文的核心思想就是:别只盯着图片看,要学会“回头看”自己刚才说了什么。

以前的方法像是一个只会死盯着图片的偏执狂,虽然不瞎编,但说话啰嗦;
这篇论文的方法像是一个聪明的对话者,它懂得在需要时参考上下文,既避免了胡说八道,又保持了对话的流畅和精彩。

这就好比写文章,好的作者不仅要看素材(图片),更要时刻回顾自己的思路(已生成的文本),这样才能写出既真实又精彩的好文章。