Selective Training for Large Vision Language Models via Visual Information Gain

该论文提出了一种基于视觉信息增益(VIG)的指标,通过量化视觉输入对降低预测不确定性的贡献,指导大视觉语言模型仅选择高信息增益的样本和令牌进行训练,从而在显著减少监督数据量的同时有效缓解语言偏见并提升视觉 grounding 能力。

Seulbi Lee, Sangheum Hwang

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大模型(LVLM,即“看图说话”的人工智能)的**“偏心眼”问题,并提出了一种“精挑细选”**的训练方法。

为了让你更容易理解,我们可以把训练大模型想象成教一个学生(AI)学习“看图写话”

1. 问题:学生为什么“不看图”?

现在的 AI 模型很聪明,但它们有一个坏习惯:偷懒

  • 现象:当你给它一张图问“图里有什么?”时,它往往不看图,而是根据自己脑子里的“文字常识”瞎编。
    • 例子:你给它一张的照片,问“这是什么?”。它可能因为训练数据里“狗”常和“公园”一起出现,就瞎编说“这是一只狗在公园玩耍”,哪怕图里其实是一片沙漠
  • 原因:在以前的训练里,老师(训练数据)给学生的题目太杂了。
    • 有些题目必须看图才能答对(比如“图里那个人的衣服是什么颜色的?”)。
    • 有些题目不用看图也能答对(比如“图里有一只猫,猫喜欢喝什么?”——这题靠常识就能答“牛奶”,不用真去看猫喝没喝)。
  • 后果:学生发现,反正有些题不看图也能拿高分,干脆就彻底放弃看图,只靠猜文字套路。这就叫“语言偏见”(Language Bias),导致模型产生“幻觉”(Hallucination),也就是胡说八道。

2. 核心发明:视觉信息增益 (VIG) —— 给题目“打分”

这篇论文的作者发明了一个叫**“视觉信息增益” (Visual Information Gain, VIG)** 的尺子。

  • 这是什么? 它就像给每一道练习题(训练样本)和每一个知识点(单词)打分。
  • 怎么打分的?
    • 先让学生蒙上眼睛(不看图)做这道题,看看他能不能答对,或者猜得有多准。
    • 再让学生睁开眼睛(看图)做这道题,看看他的准确率提高了多少。
    • VIG 分数 = 睁眼后的进步 - 蒙眼时的水平
  • 结果
    • 如果一道题,蒙眼瞎猜和睁眼看图,答案差不多(比如问“猫喜欢喝什么”),那这道题的VIG 分数很低(甚至可能是负的,因为看图反而干扰了常识)。
    • 如果一道题,蒙眼瞎猜会错得离谱,但睁眼看图就能答对(比如问“猫的衣服是红色的还是蓝色的”),那这道题的VIG 分数很高

3. 解决方案:只练“高分题” (选择性训练)

有了这个尺子,作者提出了一种**“精挑细选”**的训练策略,就像一位聪明的教练:

  1. 筛选题目(样本级)

    • 教练把题库里那些VIG 分数低的题目(不用看图也能答的)全部扔掉,只保留那些必须看图才能答对的“高分题”。
    • 比喻:就像教游泳,教练不再让学生做“在岸上比划手臂”这种不用下水也能练的题,而是只让他做“必须跳进水里才能完成”的动作。
  2. 筛选知识点(单词级)

    • 即使在保留的“高分题”里,也不是每个字都重要。
    • 比如句子“图里有一只红色的猫在桌子上"。
      • “红色的”、“桌子上”:这些词必须看图才能知道,VIG 分数高,要重点练。
      • “图里”、“有”、“一只”:这些词不看图也能猜出来,VIG 分数低,可以少练或不练。
    • 教练只让学生反复练习那些真正依赖视觉的关键词。

4. 效果:事半功倍

这种方法带来了惊人的效果:

  • 更聪明:模型不再瞎编,它学会了“眼见为实”。当被问到图里有什么时,它会真的去“看”图,而不是靠猜。
  • 更省劲:以前需要给模型喂 100 份资料,现在只喂70 份(甚至更少),而且只让它练那些最核心的知识点,效果反而比全量训练更好。
  • 不伤身:不需要改变模型复杂的内部结构,也不需要推理时多花算力,纯粹是**“换了一批更好的教材”**。

总结

这篇论文的核心思想就是:别让学生做那些“不用动脑(看图)”的题,也别让他背那些“不用看图”的废话。

通过发明一把尺子(VIG),作者帮 AI 模型去粗取精,只让它专注于学习那些真正需要“看”才能学会的东西。结果就是,模型变得更诚实、更准确,而且学得更快、更省力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →