Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

本文提出了 SIFormer,一种结合 4D 雷达与相机数据的场景 - 实例感知 Transformer 模型,通过跨视图激活机制将 2D 实例线索注入 BEV 空间并融合互补特征,有效解决了雷达几何信息稀疏导致的实例检测难题,在多个数据集上实现了最先进的 3D 目标检测性能。

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao, Xiaohan Zhang, Zhe Wu, Beinan Yu, Fang Wang, Jie Bai, Hui-Liang Shen

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SIFormer 的新系统,它的任务是帮助自动驾驶汽车“看”得更清楚、更准确。

想象一下,自动驾驶汽车就像是一个在高速公路上开车的超级司机。为了安全驾驶,它需要两个主要的“眼睛”:

  1. 摄像头(Camera):就像司机的肉眼,能看清颜色、纹理,知道前面是红色的车还是绿色的树,但看不清距离(就像你闭上一只眼,很难判断物体离你有多远)。
  2. 4D 毫米波雷达(4D Radar):就像司机的“回声定位”或“夜视仪”,在黑夜、暴雨、大雾中都能工作,而且能测出距离和速度。但是,它的图像非常模糊和稀疏,就像是用点阵画出来的画,很难看清具体的物体轮廓,容易把背景里的杂波误认为是车。

过去的难题:两个“眼睛”的尴尬

以前的自动驾驶系统,在把这两个“眼睛”的信息结合起来时,主要面临两个问题:

  • 方案 A(鸟瞰图融合): 试图把摄像头看到的画面直接“压扁”成一张从高空俯瞰的地图(鸟瞰图),再和雷达图叠加。
    • 比喻: 就像试图把一张高清的 2D 照片强行贴在一张只有几个点的 3D 网格上。结果往往是背景太吵,把真正的目标(比如行人)给淹没了,就像在嘈杂的派对上听不清朋友说话。
  • 方案 B(视角融合): 先在 2D 照片里把物体框出来,再去找雷达对应的点。
    • 比喻: 就像先认出“那是个人”,再去找雷达信号。但这缺乏全局观,容易漏掉一些没被框住但很重要的东西,而且如果第一步框错了,后面全错。

核心痛点: 雷达太“稀疏”了,就像一张只有几个点的网,很难直接在上面“抓”住具体的物体(实例)。

新方案:SIFormer(场景 - 实例感知 Transformer)

SIFormer 就像是一个聪明的“翻译官”兼“侦探”,它发明了一套新的流程,把两个“眼睛”的优势完美结合。我们可以把它的工作流程想象成三个步骤

第一步:去噪与聚焦(SSI - 稀疏场景整合)

  • 比喻: 想象你在一个满是灰尘的房间里找东西。以前的方法是把所有灰尘都扫一遍。SIFormer 则先拿个筛子(分割和深度引导),把那些明显的灰尘(背景噪声)和模糊的影子先筛掉,只留下真正可能有东西的区域。
  • 作用: 在把摄像头画面转换成 3D 地图之前,先过滤掉干扰,让雷达和摄像头都只关注“重点区域”。

第二步:跨视角“唤醒”(CVC - 跨视角关联)

这是这篇论文最核心的创新。

  • 比喻: 想象雷达是一个视力不好但方向感极强的盲人,而摄像头是一个视力极好但方向感模糊的明眼人
    • 盲人(雷达)在 3D 空间里摸索,但看不清具体是谁。
    • 明眼人(摄像头)在 2D 照片里大喊:“那里有个穿红衣服的人!”
    • SIFormer 的做法: 它利用明眼人的喊声(2D 实例线索),去**“唤醒”**盲人(雷达)在 3D 空间里对应的区域。它告诉盲人:“别管周围那些杂音了,把注意力集中在那个穿红衣服的人身上!”
  • 作用: 即使雷达信号很弱、很模糊,也能通过摄像头的提示,精准地“激活”出物体的位置。这就解决了雷达“看不清”的问题。

第三步:强强联合(IEA - 实例增强注意力)

  • 比喻: 现在盲人已经知道“那里有个穿红衣服的人”了,但他还需要确认“那是个人,不是红色的气球”。
    • SIFormer 让盲人(雷达几何信息)和明眼人(摄像头语义信息)再次握手。
    • 它用一种Transformer 机制(一种强大的注意力机制),让两者互相确认:雷达说“这里有物体轮廓”,摄像头说“这里确实是红色的”。
  • 作用: 把两者的信息深度融合,确保检测到的物体既准又稳,哪怕在恶劣天气下也不会出错。

实验结果:真的好用吗?

作者在几个著名的自动驾驶数据集(View-of-Delft, TJ4DRadSet, nuScenes)上进行了测试:

  • 成绩: SIFormer 在所有测试中都击败了现有的最先进方法(State-of-the-Art)。
  • 鲁棒性: 即使摄像头或雷达其中一个出了点故障(比如校准有点偏差),或者在只有摄像头的情况下,SIFormer 的表现依然比别的系统好很多。
  • 速度: 虽然它很聪明,但处理速度依然很快(每秒约 6.9 帧),完全能满足实时驾驶的需求。

总结

简单来说,SIFormer 就是给自动驾驶汽车装了一个**“超级大脑”。它不再让雷达和摄像头各自为战,而是通过一种巧妙的“跨视角对话”**机制:

  1. 清理环境噪音;
  2. 再用摄像头的清晰视野点亮雷达模糊的视野;
  3. 最后让两者互相确认,达成完美的共识。

这使得自动驾驶汽车即使在雷达信号很弱、环境很恶劣的情况下,也能像经验丰富的老司机一样,精准地识别出路上的每一个行人和车辆。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →