VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

本文提出了 VisNec 框架,通过量化视觉输入对多模态指令微调的边际贡献来识别并筛选出真正依赖视觉推理的高质量样本,从而在显著减少训练数据量的同时实现了超越全量数据训练的性能表现。

Mingkang Dong, Hongyi Cai, Jie Li, Sifan Zhou, Bin Ren, Kunyu Peng, Yuqian Fu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VisNec 的新方法,它的核心任务是给多模态大模型(既能看又能聊的 AI)的“教材”进行大扫除和精挑细选

为了让你轻松理解,我们可以把训练 AI 想象成培养一个超级聪明的学生

1. 现在的痛点:教材里有太多“水货”和“错题”

目前,为了让 AI 变得更聪明,研究人员会喂给它海量的“图文配对”数据(比如一张图配一段文字描述)。但这就像给学生的教材里混进了很多坏东西:

  • 冗余题(Redundant)

    • 场景:题目问“草是什么颜色的?”,选项是 A.绿 B.红。
    • 问题:学生根本不需要看图,光凭常识(文字知识)就能答对。这种题目对 AI 学习“看图”毫无帮助,纯属浪费时间。
    • 比喻:就像教游泳时,一直问“水是不是湿的?”,学生不用下水也能答对,但这学不会游泳。
  • 错题/误导题(Misaligned)

    • 场景:图片里明明是个室内房间,题目却问“这是户外吗?”,答案却标了“是”。
    • 问题:这种图文不符的数据会教坏 AI,让它产生幻觉,甚至为了迎合错误的文字而忽略真实的图像。
    • 比喻:就像老师指着黑板上的苹果图片,却告诉学生“这是香蕉”,学生越学越糊涂。
  • 真正的难题(Vision-Critical)

    • 场景:图片里有一堆复杂的机械零件,题目问“这个零件的编号是多少?”。
    • 价值:不看图绝对答不上来,必须结合视觉信息。这才是 AI 真正需要学习的“干货”。

2. VisNec 是什么?一个“视觉必要性”的测谎仪

VisNec 的核心思想非常简单:只有当“看图”能帮 AI 更好地回答问题时,这张图才是有价值的。

它发明了一个**“测谎仪”**(VisNec 分数),通过一个巧妙的“盲测”实验来给每道题打分:

  1. 第一次考试(蒙眼考):把图片遮住,只给 AI 看文字题目,让它猜答案。如果它猜得很准,说明这题不需要看图(冗余)。
  2. 第二次考试(睁眼考):把图片给 AI 看,让它再猜一次。
  3. 算分
    • 如果睁眼考蒙眼考进步巨大(分数变高),说明这张图至关重要(VisNec > 0)。
    • 如果睁眼考蒙眼考差不多,说明图是多余的(VisNec ≈ 0)。
    • 如果睁眼考反而比蒙眼考更差(比如图片误导了 AI),说明这是错题(VisNec < 0)。

3. 他们是怎么做的?“优中选优” + “雨露均沾”

光挑出好题还不够,还得保证题目种类丰富。VisNec 采用了两步走的策略:

  • 第一步:大扫除(过滤)
    把所有“蒙眼考”就能答对(冗余)或者“睁眼考”反而答错(误导)的题目直接扔掉。只留下那些必须看图才能答对的题目。

  • 第二步:分门别类(聚类)
    剩下的好题里,可能全是“找物体”的题,而缺少“数数”或“推理”的题。VisNec 先把题目按类型(比如几何、OCR 文字识别、常识推理)分成不同的“班级”(聚类)。
    然后在每个“班级”里,只挑出VisNec 分数最高的那一小部分(比如前 15%)。

结果就是:留下的数据集虽然只有原来的 15%,但每一道题都是“精华中的精华”,而且各种类型的题目都有,非常均衡。

4. 效果如何?“少即是多”

论文的实验结果非常惊人,简直像是“四两拨千斤”:

  • 省时间:原本需要训练 76 个小时的数据量,现在只用训练 11 个小时(加上筛选时间共 23 小时),效率提升了 3 倍多。
  • 成绩更好
    • 在 LLaVA-665K 数据集上,只用 15% 的数据,AI 的成绩达到了全量数据训练的 100.2%(甚至稍微超了一点点!)。
    • 在 Vision-Flan-186K 数据集上,成绩更是达到了全量数据的 115.8%

总结

这篇论文告诉我们:训练 AI 不在于“吃得越多越好”,而在于“吃得越精越好”。

VisNec 就像一位超级营养师,它把 AI 教材里那些“全是水的鸡汤”(冗余数据)和“有毒的蘑菇”(错误数据)都挑出来扔掉,只留下那些真正能锻炼 AI“视觉肌肉”的“高蛋白牛排”。最终,AI 吃得少,但长得更强壮、更聪明。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →