InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本文提出了轻量级统一多模态模型 InternVL-U,通过解耦视觉表征与推理中心的数据合成策略,在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一,其综合性能显著超越了参数量大 3 倍以上的同类基线模型。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 InternVL-U 的超级智能模型。你可以把它想象成一位**“全能型数字艺术家兼逻辑学家”**。

在以前,电脑里的 AI 往往“偏科”:有的很擅长看懂图片、做数学题(理解与推理),但让它画画或改图时,要么画得歪歪扭扭,要么根本听不懂指令;有的擅长画精美的画,但让它去理解复杂的科学图表或修改图片里的文字时,却显得笨手笨脚。

InternVL-U 的出现,就是为了解决这种“偏科”问题,让一个模型同时拥有“看懂世界”、“逻辑推理”、“创作绘画”和“精细修图”四种超能力。

以下是用通俗易懂的比喻来解释它的核心亮点:

1. 它的“大脑”架构:像是一个分工明确的“超级工作室”

很多以前的统一模型试图用“一套大脑”处理所有事情,结果要么理解力下降,要么画画质量变差。

  • InternVL-U 的做法:它建立了一个**“统一的工作室”**。
    • 核心大脑(理解与推理):它保留了一个非常聪明的“老专家”(基于 InternVL 3.5),这个专家擅长阅读、做数学题、看图表,逻辑极强。
    • 专业画师(生成与编辑):它专门聘请了一位“顶级画师”(基于 MMDiT 架构),只负责画画和修图。
    • 关键创新:这两个角色虽然分工不同,但共用同一个“工作台”(上下文空间)。老专家在思考时,画师能实时听到他的指令;画师在动笔时,老专家能实时指导细节。
    • 比喻:就像一位老练的导演(理解模型)指挥一位特效大师(生成模型)。导演负责构思剧情和逻辑,特效大师负责把画面做得逼真。以前是导演和特效师各干各的,现在他们坐在同一个房间里,导演说“我要一个悲伤的雨天”,特效师立刻就能画出符合逻辑的雨景,而不是画出一个晴天。

2. 它的“训练秘籍”:从“死记硬背”到“学会思考”

以前的 AI 画画,往往是“看到什么画什么”,或者“听到什么画什么”,缺乏深层思考。比如你让它画一个“包含物理公式的黑板”,它可能只会乱画几个符号。

  • InternVL-U 的做法:引入了**“思维链”(Chain-of-Thought, CoT)**。
    • 比喻:这就好比教学生做题。以前的 AI 是**“背答案”,看到题目直接猜结果;InternVL-U 则是“写解题步骤”**。
    • 当你让它画一个“2026 年马年的生肖图”时,它不会直接瞎画,而是先在脑子里(通过文字)推演:“2026 年是马年 -> 马要跑得快 -> 背景要有祥云 -> 颜色要喜庆 -> 还要加上书法文字”
    • 这种**“先思考,再动手”**的机制,让它能处理非常复杂的任务,比如:
      • 科学绘图:画出准确的化学分子结构或物理受力分析图。
      • 文字渲染:在图片里精准地写出复杂的数学公式或中文诗句,而不是乱码。
      • 逻辑修图:比如“把日历上的日期改成明天”,它知道要加一天,而不是随便写个数字。

3. 它的“数据粮仓”:不仅吃“美食”,也吃“硬菜”

很多 AI 只吃过“风景照”和“人像照”(低语义密度的数据),所以画风景很美,但画不了复杂的图表。

  • InternVL-U 的做法:它专门构建了一套**“高营养数据合成流水线”**。
    • 硬菜(高语义密度):它大量学习了教科书、科学论文、代码图表、数学题、甚至网络热梗(Meme)。
    • 比喻:别的 AI 可能只吃过“快餐”(普通的风景照),InternVL-U 则像是一个**“米其林大厨”**,不仅吃快餐,还专门研究“分子料理”(科学图表)和“创意料理”(网络梗图)。
    • 这使得它不仅能画美女,还能画出**“带正确文字的海报”“符合物理定律的电路图”,甚至能根据指令把一张严肃的图变成“搞笑表情包”**。

4. 它的“性价比”:小身材,大能量

  • 参数大小:它只有 40 亿(4B) 个参数。
  • 对比:很多同类“全能模型”动辄 140 亿甚至几十亿参数(比如 BAGEL 是 14B)。
  • 比喻:这就像是一个**“只有 4 岁但智商超群的儿童”,却打败了那些“ 14 岁但反应迟钝的青少年”**。
    • 在画画、改图、理解复杂指令的测试中,它用更小的体积(更少的计算资源),跑出了比那些“大块头”更好的成绩。这意味着它更便宜、更快,更容易被普通开发者或公司使用(也就是论文标题说的"Democratizing",即民主化/普及化)。

总结:它到底能干什么?

简单来说,InternVL-U 是一个**“懂逻辑的画家”**:

  1. 看图说话:能看懂复杂的科学图表、数学题,并解释给你听。
  2. 按图索骥:你给它一个模糊的想法(比如“画个 2026 年马年的图”),它能通过逻辑推理,生成细节丰富、文字准确的图片。
  3. 精修图片:不仅能换背景、换衣服,还能精准修改图片里的文字(比如把路牌上的字改掉),甚至能根据逻辑指令修改图表(比如“把图中的三角形旋转 90 度”)。
  4. 玩梗创作:能理解网络文化,把普通照片变成搞笑表情包。

一句话总结:InternVL-U 打破了“理解”和“生成”的壁垒,用**“先思考后行动”的策略,让一个小巧的模型拥有了像人类一样“既懂道理,又会画画”**的完整能力,而且成本更低,让每个人都能用得起。