Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

该论文提出了 Granulon,一种基于 DINOv3 的多模态大语言模型,通过文本条件粒度控制器和自适应令牌聚合模块,实现了从像素级到粗粒度语义的动态自适应融合,显著提升了细粒度视觉理解能力并降低了幻觉。

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Granulon 的新模型,它旨在解决当前人工智能(AI)在“看图说话”和“视觉推理”时遇到的一个核心痛点:要么看得太粗,要么看得太细,很难灵活切换。

为了让你轻松理解,我们可以把现在的 AI 视觉系统想象成两个性格迥异的“摄影师”,而 Granulon 则是它们的“超级导演”。

1. 现状:两个性格极端的摄影师

目前的 AI 模型主要依赖两种视觉编码器(相当于 AI 的眼睛):

  • 摄影师 A(基于 CLIP 技术):
    • 特点: 他擅长宏观叙事。如果你让他看一张森林的照片,他能立刻告诉你“这是一片茂密的森林,很有生机”。
    • 缺点: 他是个“近视眼”加“概括狂”。如果你问他“那只松鼠尾巴上有多少根毛?”或者“树皮的纹理是什么颜色?”,他往往会瞎编,或者完全忽略细节。他只看得到大概的轮廓和概念,缺乏颗粒度(Granularity)
  • 摄影师 B(基于 DINOv3 技术):
    • 特点: 他是个显微镜专家。他能看清树叶上的每一道纹路、松鼠尾巴的每一根毛,细节极其丰富。
    • 缺点: 他是个“只见树木不见森林”的强迫症。如果你让他描述整片森林的氛围,他可能会因为过度关注某一片叶子的形状而忘了告诉你这是一片森林。他缺乏宏观的抽象能力

以前的做法: 很多 AI 模型只请摄影师 A,导致细节丢失;或者试图把 A 和 B 拼在一起,但这就像让两个人同时说话,既吵又贵,而且很难协调。

2. Granulon 的解决方案:一位聪明的“超级导演”

Granulon 的核心创新在于,它只请了摄影师 B(DINOv3,那个细节大师),但给它配了一位**“文本条件粒度控制器”(Text-conditioned Granularity Controller)**。

这就好比:

  • 以前的 AI: 无论问什么,摄影师 B 都拿着显微镜死盯着看,或者摄影师 A 都拿着广角镜瞎概括。
  • Granulon 的 AI: 它有一个**“智能导演”**。
    • 当你问:“这棵树是什么品种?”(需要宏观概念),导演会立刻对摄影师 B 说:“嘿,把镜头拉远!给我看整体结构,别管树叶了!” -> 自动切换到大颗粒度模式。
    • 当你问:“这只鸟的羽毛是什么颜色的?”(需要微观细节),导演会立刻说:“把镜头推近!给我看羽毛的纹理,别管背景了!” -> 自动切换到小颗粒度模式。

3. 它是如何工作的?(两个核心模块)

Granulon 主要通过两个步骤来实现这种“灵活变焦”:

  1. 智能导演(粒度控制器):

    • 它先读你的问题(文本)。
    • 如果问题很宽泛(比如“这是什么场景?”),它就告诉视觉系统:“我们要粗粒度,看大局。”
    • 如果问题很具体(比如“那个红色的东西是什么?”),它就告诉视觉系统:“我们要细粒度,看细节。”
    • 它就像一个翻译官,把人类语言中的“意图”翻译成了视觉系统能听懂的“焦距指令”。
  2. 智能剪辑师(自适应 Token 聚合模块):

    • 摄影师 B 拍了一堆极其详细的照片(像素级特征)。
    • 根据导演的指令,这个“剪辑师”开始干活:
      • 如果需要大局,它就把几十张局部照片“压缩”成一张全景图(聚合),提取出核心概念。
      • 如果需要细节,它就保留那些关键的局部特写,剔除无关的噪点。
    • 最后,它把整理好的“视频素材”(视觉特征)交给语言模型(AI 的大脑)去写答案。

4. 效果如何?(为什么它很牛?)

论文通过大量实验证明,Granulon 就像是一个既能当摄影师又能当导演的全能选手

  • 更聪明(准确率提升): 在需要推理的任务中(比如“为什么这个人会滑倒?”),Granulon 的准确率比以前的模型提高了约 30%。因为它能根据问题灵活调整视角,既看到了滑倒的脚(细节),也看到了湿滑的地面(全局)。
  • 更少胡说八道(幻觉减少): 以前的模型(特别是只看大局的)经常“脑补”出不存在的东西(比如给没有窗户的房子编造窗户)。Granulon 因为保留了像素级的真实细节,幻觉减少了约 20%。它更“诚实”,看到什么说什么。
  • 医疗领域表现优异: 在医疗影像分析中(比如区分手术步骤或识别微小病灶),Granulon 表现出色。因为医生既需要看整体病灶位置,又需要看清细胞级别的细节,Granulon 完美兼顾了这两点。

总结

Granulon 就像给 AI 装上了一套**“智能变焦镜头”**。

以前的 AI 要么只能看全景(容易忽略细节),要么只能看特写(容易丢失逻辑)。Granulon 通过一个聪明的“导演”,根据你问的问题,动态地决定是让 AI 用“广角镜”看世界,还是用“微距镜”看细节。

这让 AI 不仅能“看见”世界,还能真正“理解”世界,无论是宏观的森林还是微观的树叶,都能信手拈来,不再犯“睁眼瞎”或“乱编造”的错误。