Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

本文提出了一种名为 Self-Aug 的无需训练的解码策略,通过利用模型内在知识实现查询自适应的语义对齐增强,并结合基于熵的自适应阈值算法动态调整候选词规模,从而显著提升了大型视觉 - 语言模型生成的事实一致性。

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Self-Aug 的新方法,旨在解决大型视觉 - 语言模型(LVLM,比如能看图说话的 AI)经常“胡说八道”(幻觉)的问题。

为了让你轻松理解,我们可以把 AI 想象成一个才华横溢但有点爱吹牛的画家

1. 核心问题:AI 的“过度自信”与“胡说八道”

想象一下,你给这位画家看一张照片,问他:“照片里那只狗是什么颜色的?”

  • 正常情况:他看着照片,回答:“是棕色的。”
  • 幻觉情况:照片里其实没有狗,或者狗是黑色的,但他可能因为训练数据里“狗”常和“棕色”一起出现,就自信满满地回答:“是棕色的!”哪怕照片里根本没有狗。

以前的方法试图通过给照片加一些“干扰”(比如把照片变模糊、切掉一部分)来测试 AI 是否真的看懂了。如果 AI 在干扰下还能答对,说明它真懂了;如果答错了,说明它是在瞎猜。

但以前的方法有个大毛病:它们用的“干扰”是随机的,不管问题是什么,都随便加个干扰。

  • 比喻:就像你问画家“这只猫在左边还是右边?”,他却把照片上下颠倒了。这对判断左右没帮助,反而把问题搞得更乱。这种“一刀切”的干扰效果很差。

2. 解决方案一:Self-Aug(自我增强)—— 让 AI 自己当“考官”

Self-Aug 的核心创新在于:让 AI 自己根据问题,决定怎么“破坏”这张图,才能最有效地测试它。

  • 以前的做法:不管问什么,都随机把图变模糊。

  • Self-Aug 的做法

    1. 当 AI 看到问题“这只猫在左边还是右边?”时,它会利用自己的知识库思考:“要测试我是否真的知道左右,最好的干扰是什么?”
    2. 它立刻意识到:“啊!如果把图片左右翻转,原来的‘左’就变成‘右’了。如果我真的懂,我就应该能识别出翻转后的变化;如果我只是在瞎猜,我可能会答错。”
    3. 于是,AI 自动选择“左右翻转”作为干扰,而不是随机选个“加噪点”。
  • 通俗比喻
    以前是老师随机发一张被涂改的试卷考学生。
    现在是让学生自己出题考自己。学生(AI)会想:“老师问的是‘颜色’,那我就把颜色改掉来考考自己;老师问的是‘位置’,那我就把位置颠倒过来考考自己。”这样能最精准地暴露出它哪里不懂。

3. 解决方案二:SAT(稀疏度自适应截断)—— 聪明的“过滤器”

除了选对干扰,AI 在生成答案时,还需要一个“过滤器”来剔除那些明显不靠谱的词。

  • 以前的做法:设定一个死板的门槛。比如,“只有概率超过 10% 的词才能选”。

    • 问题:如果 AI 很确定(比如问"1+1 等于几”),这个门槛没问题。但如果 AI 很不确定(比如问一个很复杂的推理题),这个死板的门槛可能会把正确答案也误杀,或者把错误答案放进来。
  • Self-Aug 的做法(SAT)
    它会根据 AI 当前的**“自信程度”**(也就是概率分布的混乱程度,数学上叫“熵”)来动态调整门槛。

    • 当 AI 很自信时(分布很集中,熵低):门槛设得高一点,只保留最确定的词,防止它因为太自信而忽略细节。
    • 当 AI 很犹豫时(分布很分散,熵高):门槛设得低一点,允许更多可能性,防止它因为太谨慎而把正确答案过滤掉。
  • 通俗比喻
    想象你在过安检。

    • 以前:不管你是谁,行李里只要有一件东西超过 500 克就不让过。
    • Self-Aug:安检员会看你的状态。如果你是个经常出差的商务人士(很自信),他检查得很严(门槛高);如果你是个第一次坐飞机的游客(很犹豫),他会稍微放宽一点标准(门槛低),让你有更多机会带上必需品,而不是把你拦在门外。

4. 总结:为什么这很厉害?

这篇论文提出的 Self-Aug 就像给 AI 装上了一个**“自我反思”**的机制:

  1. 懂变通:它不再盲目地给图片加干扰,而是根据具体问题,智能地选择最能“戳穿”谎言的干扰方式(比如问颜色就改颜色,问位置就翻转)。
  2. 会看脸色:它在生成答案时,能感知自己是否“心里没底”,并动态调整筛选标准,既不让胡说八道的词混进来,也不让真正的答案被误杀。

最终效果
实验证明,用了这套方法的 AI,在回答各种看图题时,胡说八道的次数大幅减少,回答得更准确、更靠谱,而且不需要重新训练模型,就像给现有的 AI 戴上了一副“防幻觉眼镜”。

一句话总结
Self-Aug 让 AI 学会了**“看人下菜碟”(根据问题选干扰)和“审时度势”**(根据自信度调门槛),从而变得更聪明、更诚实。