Empowering Semantic-Sensitive Underwater Image Enhancement with VLM

该论文提出了一种利用视觉语言模型生成文本描述并构建空间语义引导图,通过双重引导机制驱动水下图像增强网络聚焦关键语义区域,从而在提升感知质量的同时显著改善下游检测与分割任务性能的新方法。

Guodong Fan, Shengning Zhou, Genji Yuan, Huiyu Li, Jingchun Zhou, Jinjiang Li

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让电脑“看懂”水下照片的有趣故事。

想象一下,你是一位潜水员,手里拿着一台相机拍了一张海底的照片。但是,因为水会吸收光线并让东西变得浑浊,这张照片看起来灰蒙蒙的,颜色发绿,鱼和珊瑚都看不清。

传统的“水下照片修复技术”就像是一个只会死记硬背的修图师。它的任务是:“把整张照片都变亮、变清晰。”于是,它拼命地给整张照片提亮、去雾。结果呢?照片确实变亮了,但鱼身上的鳞片可能变得模糊,背景里的水草可能被误认为是鱼,甚至出现了一些奇怪的色块。

问题出在哪里?
这就好比你在一个嘈杂的房间里找人。传统的修图师是把整个房间的音量都调大(全局增强),结果噪音也变大了,你依然听不清那个特定的人在说什么。对于电脑来说,这种“一视同仁”的修复,反而让它在做物体识别(比如数有多少条鱼)或图像分割(把鱼和水草分开)时变得更糊涂了。

这篇论文提出了什么新办法?
作者们想出了一个聪明的主意:给修图师配一个**“懂行”的助手**,这个助手就是视觉语言模型(VLM)

我们可以把这个过程想象成**“带着寻宝图去寻宝”**:

  1. 第一步:生成“寻宝图”(语义引导图)

    • 传统的修图师是瞎子,不知道照片里有什么。
    • 新的方法先让那个“懂行”的助手(VLM)看一眼模糊的照片,然后大声说出来:“嘿,这里有一条,那里有一块珊瑚。”
    • 接着,系统把这些文字描述转化成一个**“热力图”**(就像寻宝图上的红圈)。在这个图上,鱼和珊瑚的位置被标记得红红的(非常重要),而背景的海水则是淡淡的(不重要)。
  2. 第二步:双重引导(双管齐下)

    • 有了这张“寻宝图”,修图师(UIE 网络)就开始干活了,但它不再盲目地修整张图,而是有了两个“紧箍咒”:
      • 紧箍咒一(交叉注意力机制): 就像修图师手里多了一盏聚光灯。当它修复图像时,聚光灯会死死地照在“寻宝图”标记的红色区域(鱼和珊瑚),把精力都花在这些关键地方,把它们修得清清楚楚。
      • 紧箍咒二(显式对齐损失): 就像老师拿着标准答案在检查。如果修图师在背景(比如普通的海水)上花了太多力气,或者把鱼修歪了,老师就会立刻扣分(惩罚),强迫它把注意力重新拉回到关键物体上。

结果怎么样?

  • 对人眼: 照片看起来更自然了,鱼的颜色很正,细节很清晰,没有那种假假的“过度修图”感。
  • 对电脑: 这是最关键的!因为照片里的鱼被修得特别清楚,背景被压得很干净,电脑再去看这张图时,就能一眼认出“这是一条鱼”,而不是把它和背景混在一起。

总结一下:
以前的水下修图是**“大锅饭”,不管是谁,都给你加一样的调料,结果可能把鱼弄咸了,把水弄淡了。
这篇论文的方法是
“分餐制”,先搞清楚盘子里哪块是鱼、哪块是菜,然后精准地**给鱼加料,给菜去味。

它的核心贡献就是:
让修图软件不再是个只会调亮度的“傻瓜”,而是一个懂内容、有重点的“智能管家”。这样修出来的照片,不仅人看着舒服,机器看着也“聪明”,能更好地完成后续的探测、分类等任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →