HeCoFuse: Cross-Modal Complementary V2X Cooperative Perception with Heterogeneous Sensors

针对现实 V2X 系统中因传感器异构配置带来的融合挑战,本文提出了 HeCoFuse 框架,通过层级融合机制、自适应空间分辨率调整及协同学习策略,在 TUMTraf-V2X 数据集上实现了跨模态互补感知,以 43.38% 的 3D mAP 成绩刷新了该数据集的 SOTA 纪录并荣获 CVPR 2025 DriveX 挑战赛冠军。

Chuheng Wei, Ziye Qin, Walter Zimmer, Guoyuan Wu, Matthew J. Barth

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,未来的城市交通就像一个巨大的交响乐团。在这个乐团里,每辆车(车辆节点)和路边的智能设施(基础设施节点)都是乐手。为了让交通流畅、安全,这些乐手需要互相“听”到彼此,共享视野,从而避开障碍物、防止事故。这就是V2X(车联网)协同感知

然而,现实世界并不像交响乐谱上写的那样完美。现实中,有的乐手拿着昂贵的激光雷达(LiDAR)(像一把高精度的 3D 扫描仪,能看清距离和形状,但很贵),有的只拿着普通的摄像头(像人眼,能看清颜色和文字,但受光线影响大,且看不清深度),还有的两者都有。

如果让拿着不同“乐器”的乐手强行合奏,或者让一个只拿摄像头的乐手去指挥一个只拿激光雷达的乐手,音乐就会乱套。这就是**异构传感器(Heterogeneous Sensors)**带来的挑战。

这篇论文提出的 HeCoFuse,就是为了解决这个“乐器不统一”的难题,打造了一个万能指挥家

1. 核心问题:大家“拿的装备”不一样

在理想的实验室里,大家假设所有车都装了一模一样的设备。但在现实中:

  • 车 A:有激光雷达 + 摄像头(全副武装)。
  • 车 B:只有摄像头(为了省钱)。
  • 路边站 C:只有激光雷达(为了覆盖远距离)。

如果直接把这些不同的数据拼在一起,就像把“乐谱”和“照片”硬塞进同一个文件夹,系统会晕头转向,不知道听谁的,或者因为数据格式对不上而崩溃。

2. HeCoFuse 的三大绝招

为了解决这个问题,HeCoFuse 设计了三个聪明的机制:

🎯 绝招一:智能“注意力”指挥棒 (Hierarchical Attention Fusion)

想象一下,当车 B(只有摄像头)和路边站 C(只有激光雷达)合作时:

  • 车道宽度、物体形状:激光雷达看得准,摄像头容易看错。这时候,HeCoFuse 的“指挥棒”会把注意力集中在激光雷达的数据上,告诉系统:“听 C 的,它看得更准!”
  • 红绿灯颜色、路牌文字:激光雷达看不见,摄像头看得清。这时候,指挥棒会立刻转向摄像头,说:“听 B 的,它知道这是红灯!”

比喻:这就像你在黑暗中找人。如果你手里有手电筒(激光雷达),你就主要靠光看轮廓;如果你手里有望远镜(摄像头),你就主要靠看衣服颜色。HeCoFuse 能根据环境(白天/黑夜/遮挡),动态决定该相信谁,把两者的优点结合起来,而不是死板地平均分配。

📏 绝招二:自适应“分辨率”调节器 (Adaptive Spatial Resolution)

不同装备产生的数据“颗粒度”不一样。激光雷达的数据可能很精细但计算量大,摄像头的数据可能很模糊但计算快。

  • HeCoFuse 就像一个智能裁缝。如果对方只有摄像头,它就自动把数据“裁剪”得稍微粗糙一点,节省算力;如果对方有激光雷达,它就保留精细的“布料”。
  • 比喻:就像你在发微信图片。如果对方网速慢(算力低),系统自动发缩略图;如果对方网速快,就发原图。这样既保证了大家都能收到信息,又不会让系统“卡死”。

🧩 绝招三:万能“翻译官” (PseudoFusion)

有些节点可能只有一个传感器,甚至暂时没信号。

  • HeCoFuse 内置了一个“翻译官”,能把只有摄像头的数据,强行“翻译”成激光雷达能懂的语言格式;反之亦然。
  • 比喻:就像在联合国会议上,不管你是讲中文、英文还是法文,翻译官都能确保大家坐在同一张桌子上开会,不会因为语言不通而散伙。即使有人没带翻译(传感器缺失),系统也能用“默认值”撑住场面,保证不崩溃。

3. 实战成绩:真的好用吗?

作者们在真实的慕尼黑交通数据集(TUMTraf-V2X)上进行了测试,这个数据集包含了各种复杂的交通场景。

  • 全能模式:当所有设备都齐全时,HeCoFuse 的表现比之前的冠军算法(CoopDet3D)还要好,准确率提升了约 1.17%
  • 混搭模式:在“车只有激光雷达 + 路边站有全套设备”这种不对称的情况下,它甚至取得了**43.38%**的超高准确率,比全副武装的模式还高!
  • 极端模式:即使是在“车只有摄像头 + 路边站只有激光雷达”这种最差的组合下,它依然能保持 21.74% 的准确率,没有像其他算法那样直接“摆烂”。

最终结果:HeCoFuse 在 CVPR 2025 DriveX 挑战赛中拿到了第一名,证明了它是目前处理这种“装备参差不齐”交通场景的最强方案。

总结

HeCoFuse 的核心思想就是:不要强求大家装备一样,而是要学会“取长补短”。

它就像一位经验丰富的老练的乐队指挥,不管乐手手里拿的是昂贵的长笛还是普通的口琴,也不管是在嘈杂的街头还是安静的音乐厅,它都能通过动态调整注意力灵活适配节奏,指挥大家奏出最和谐、最安全的交通乐章。这让未来的自动驾驶不再依赖昂贵的“顶配”车辆,而是让各种不同配置的车和路,都能安全地协同工作。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →