Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

本文提出了一种基于 YOLOv10 的轻量级水下目标检测框架,通过集成多阶段自适应增强模块、双池化序列注意力机制以及 FGIoU 损失函数,在 RUOD 和 DUO 数据集上显著提升了检测精度并保持了模型的高效性。

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让电脑在浑浊的水下也能“火眼金睛”地看清物体的故事。

想象一下,你戴着一副普通的眼镜潜入深海。你会发现世界变得灰蒙蒙的,颜色发蓝发绿,光线昏暗,而且水里的浮游生物像雾气一样挡在眼前。这时候,如果你要寻找一条小鱼或一只海星,普通的“眼睛”(也就是现有的 AI 模型)很容易看走眼,或者根本看不见。

这篇论文的作者们(来自孟加拉国的几位研究者)给现有的 AI 模型(YOLOv10)穿上了一套特制的“深海潜水装备”,让它变得既聪明又轻便。

以下是用大白话和比喻对这篇论文核心内容的解读:

1. 核心问题:水下世界太“脏”了

普通相机拍出来的水下照片,就像透过脏玻璃看东西:

  • 颜色失真:红色光在水里传不远,所以照片看起来全是蓝绿色的。
  • 像雾一样:光线散射,导致画面模糊,对比度低。
  • 目标太小:鱼虾往往很小,还藏在复杂的背景里。

现有的 AI 模型是在陆地上训练的,到了水下就像让一个习惯了看高清电视的人突然去雾天开车,效果自然大打折扣。

2. 他们的解决方案:三件“法宝”

作者给 AI 模型加了三个关键模块,就像给潜水员配了三个神器:

第一件法宝:自动修图师(多阶段自适应增强)

  • 比喻:这就好比给照片加了一个智能修图滤镜
  • 作用
    • 它先调色:把偏蓝绿色的画面强行拉回正常的颜色(比如把红色的鱼找回红色)。
    • 提亮:像给照片加对比度,让物体轮廓更清晰。
    • 最后去雾:像擦掉镜头上的水雾,让边缘变锐利,同时不产生奇怪的晕影。
  • 特点:这个过程是“死板”的(确定性算法),不需要 AI 学习,速度快且稳定,就像自动调节的白平衡。

第二件法宝:超级聚光灯(双池化序列注意力机制 DPSA)

  • 比喻:想象你在一个嘈杂的派对(复杂的水下背景)里找朋友。普通 AI 会盯着所有人看,累得半死还容易看错。而这个新机制就像给 AI 装了一个智能聚光灯
  • 作用
    • 它先筛选频道(通道注意力):告诉 AI“别管那些蓝色的背景噪音,只关注鱼的颜色特征”。
    • 聚焦位置(空间注意力):告诉 AI“别管整张图,只盯着那个像海星的小方块”。
    • 它像是一个挑剔的保安,把无关紧要的背景噪音挡在门外,只让重要的目标通过。
  • 好处:让 AI 能更清楚地看到那些藏在暗处的小鱼,而且不增加太多计算负担。

第三件法宝:更严格的考官(FGIoU 损失函数)

  • 比喻:在训练 AI 时,原来的“考官”(损失函数)可能比较宽容,只要框大概框住鱼就行。但新的考官(FGIoU 损失)非常严格且公平
  • 作用
    • 抓重点:它特别关注那些难辨认的样本(比如模糊的小鱼),强迫 AI 多练习这些难点。
    • 抠细节:它不仅要求框住鱼,还要求框得精准,不能多包一点海水,也不能少包一点鱼尾巴。
    • 平衡:它解决了“大鱼好抓,小鱼难抓”的不平衡问题。

3. 结果如何?

这套装备装在一个叫 YOLOv10 的轻量级模型上(本身就像一辆轻便的摩托车,而不是笨重的大卡车)。

  • 成绩斐然:在两个著名的水下数据集(RUOD 和 DUO)测试中,这套新系统的准确率(mAP)从原来的 82% 左右提升到了 88% 以上
  • 轻量级:虽然变聪明了,但它依然很轻,只有 280 万个参数(相当于只有几 MB 的大小)。这意味着它可以在水下机器人(AUV)或潜水器这种算力有限的设备上实时运行,不需要连回岸上的超级计算机。

4. 总结

简单来说,这篇论文就是给水下 AI 戴了一副智能眼镜(修图)、装了一个聚光灯(注意力机制),并给它请了一位严厉教练(新损失函数)。

最终效果:让原本在水下“眼神不好”的 AI,变成了能实时、精准地识别鱼、海星、珊瑚等物体的“水下侦探”,而且这个侦探身体很轻,可以背着它去任何地方执行任务。这对于海洋监测、海底资源开发以及未来的水下自动驾驶都非常有意义。