ACCOR: Attention-Enhanced Complex-Valued Contrastive Learning for Occluded Object Classification Using mmWave Radar IQ Signals

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 ACCOR 的新技术，它能让毫米波雷达像“透视眼”一样，隔着纸箱看清里面的东西。

想象一下，你正在一个繁忙的物流仓库里，传送带上运来一个个封得严严实实的纸箱。传统的摄像头（就像我们的眼睛）只能看到纸箱的外壳，完全不知道里面装的是锤子、水杯还是胶带。而这项新技术，就是为了解决这个“盲盒”难题而生的。

下面我用几个生动的比喻来为你拆解这项技术：

1. 核心角色：毫米波雷达（看不见的“超级侦探”）

普通的摄像头怕黑、怕雾、怕雨，而且看不见纸箱里面。但毫米波雷达不一样，它发射的是无线电波。

比喻：想象雷达是一个拥有“透视超能力”的侦探。它发出的波能穿透像纸板、塑料或布料这样的薄材料，就像 X 光能穿透皮肤看到骨头一样。它能“听”到纸箱内部物体反射回来的微弱信号，从而判断里面是什么。

2. 技术难点：信号太“模糊”，容易“张冠李戴”

虽然雷达能穿透，但反射回来的信号非常复杂且相似。

比喻：这就好比侦探在听一群人在隔壁房间说话。虽然能听到声音，但“锤子”和“扳手”发出的回声可能非常像，很容易搞混。以前的方法就像是一个新手侦探，只能凭直觉猜，准确率不够高，或者需要非常笨重、昂贵的设备。

3. ACCOR 的三大“独门秘籍”

为了解决上述问题，作者设计了一个叫 ACCOR 的 AI 模型，它有三招“绝活”：

第一招：保留“原汁原味”的复数信号（Complex-Valued CNN）

传统的 AI 处理雷达信号时，往往把信号拆解成“实部”和“虚部”两个独立的数字流，这就像把一首完整的交响乐拆成了“左耳听”和“右耳听”两半，丢失了声音原本的立体感和相位关系。

比喻：ACCOR 就像一个懂音乐的指挥家。它不拆开信号，而是直接处理完整的“复数”信号（包含振幅和相位）。它知道，信号里的“相位”就像音乐的节奏，如果拆散了，就听不出旋律了。这样它能更精准地捕捉物体的细微特征。

第二招：注意力机制（Attention Mechanism）

雷达信号里有很多杂音，有些部分对识别物体很重要，有些则是噪音。

比喻：这就像在一个嘈杂的派对上，你需要听清朋友在说什么。ACCOR 里的“注意力层”就像是一个超级聚光灯。它能自动忽略背景里的嘈杂声（比如纸箱的纹理），把光聚焦在真正重要的物体特征上（比如锤子的金属质感），从而更聪明地提取关键信息。

第三招：混合“双管齐下”的惩罚机制（Hybrid Loss）

在训练 AI 时，我们需要告诉它哪里做对了，哪里做错了。以前的方法只告诉它“猜对了吗？”，而 ACCOR 用了两种方法。

比喻：
- 交叉熵损失：就像老师批改作业，直接告诉你“这道题选 A 是对的”。
- 对比学习：这就像老师不仅告诉你答案，还让你把“锤子”和“扳手”的照片放在一起对比，强行把它们在脑海里的印象拉开距离。
- 效果：通过这种“双管齐下”，AI 不仅知道答案，还能把不同物体的特征区分得清清楚楚，不再混淆。

4. 实验结果：真的好用吗？

研究人员收集了两种不同频率（64 GHz 和 67 GHz）的数据，就像让侦探在两种不同光线下测试。

成绩：ACCOR 在 64 GHz 下达到了 96.6% 的准确率，在 67 GHz 下达到了 93.6%。
对比：它打败了之前所有的雷达专用模型，甚至打败了那些被强行改造来识别雷达信号的“图像识别模型”（就像让一个擅长认照片的 AI 去听声音，效果自然不好）。

5. 总结与未来

这项研究证明了，通过结合复数信号处理、注意力聚焦和对比学习，我们可以用小巧、廉价的雷达设备，在工业流水线上实现高效的“透视”分类。

未来展望：虽然现在它已经能隔着纸箱认出锤子和水杯了，但未来我们希望它能适应更多种类的包装、更复杂的物体，甚至在不同的天气和环境下都能像“超级侦探”一样工作，让机器人分拣和物流自动化变得更加智能和可靠。

一句话总结：ACCOR 给雷达装上了“透视眼”和“聪明的大脑”，让它能隔着纸箱精准识别物体，为未来的智能工厂和物流机器人提供了强有力的感知工具。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
毫米波（mmWave）雷达因其成本低、穿透性强（可穿透纸板、塑料等非金属材料）以及在恶劣天气（雾、雨、黑暗）下仍能可靠工作，在工业检测、机器人和物流领域具有重要应用价值。特别是对于被遮挡物体的分类（例如识别封闭纸箱内的物品），雷达比光学传感器（如摄像头、LiDAR）更具优势。

现有挑战：
尽管已有研究利用 MIMO 毫米波雷达进行遮挡物体分类，但现有方法存在以下局限性：

信号处理不足： 许多现有模型依赖预处理后的图像（如距离 - 多普勒图）或点云，这丢失了原始 IQ（同相/正交）信号中的丰富相位和幅度信息。
架构限制： 现有的基于 IQ 信号的方法通常使用计算成本高昂的 3D 卷积神经网络（CNN），且缺乏对信号内在结构的深度挖掘。
频率泛化性未验证： 现有基准数据集通常局限于单一频段，缺乏对不同频率下穿透能力和模型性能的对比分析。
类别区分度： 雷达信号本身类间差异较小，传统的分类损失函数难以在特征空间中将不同类别有效分离。

核心问题：
如何利用原始复数 IQ 信号，设计一个高效、鲁棒的深度学习模型，以实现对封闭包装内物体的精准分类，并验证其在不同毫米波频段下的性能？

2. 方法论 (Methodology)

作者提出了 ACCOR（Attention-Enhanced Complex-Valued Contrastive Learning），一个专为毫米波雷达 IQ 信号设计的深度学习框架。

2.1 数据预处理

传感器： 使用 Vayyar 和 Mini-Circuits 的 62-69 GHz FMCW MIMO 雷达，配备 20 个发射天线和 20 个接收天线，形成 400 个虚拟通道。
信号处理： 对原始复数 IQ 信号进行快速傅里叶变换（FFT），生成复数距离轮廓（Complex Range Profile）。相比时域信号，距离轮廓提供了更丰富、更具判别力的特征。
输入维度： 单个样本包含 400 个通道 $\times$ 100 个距离仓的复数数据。

2.2 模型架构

ACCOR 由三个核心部分组成：

复数 CNN 骨干网络 (Complex-Valued CNN Backbone)：
- 直接在复数域进行卷积、批归一化（Batch Normalization）和激活函数（cReLU）操作。
- 优势： 保留了 I/Q 分量之间固有的相位关系和互相关性，避免了将其拆分为实值通道所导致的信息丢失。
- 结构包含 3 层复数卷积层（核大小 5）和平均池化层。
多头自注意力机制 (Multi-Head Self-Attention)：
- 将 CNN 提取的特征映射为 Token 向量（维度 D=256），并投影到实数域后输入注意力层。
- 包含 16 个注意力头，用于捕捉距离域和角度域中多样化的特征依赖关系，进一步细化雷达特征。
混合损失函数 (Hybrid Loss Function)：
- 结合加权交叉熵损失（Cross-Entropy, $\ell_\chi$ ）和监督对比损失（Supervised Contrastive Loss, $\ell_\kappa$ ）。
- 公式： $\ell_{total} = (1 - \alpha) \ell_\chi + \alpha \ell_\kappa$ 。
- 作用： 交叉熵保证标签预测的准确性，对比损失则强制同一类的样本在特征空间中聚集，不同类的样本相互排斥，从而解决雷达信号类间差异小的问题。

3. 关键贡献 (Key Contributions)

复数 CNN 与自注意力结合： 设计了一个紧凑的复数 CNN 骨干网络，专门利用雷达 IQ 信号的幅度和相位信息，并引入自注意力机制进行特征细化。
混合损失函数： 提出了一种结合交叉熵和监督对比学习的混合损失函数，显著提升了特征空间的可分性和分类鲁棒性。
多频段基准扩展： 在现有 64 GHz 数据集的基础上，新增了67 GHz频段的数据子集。这使得能够对比分析不同频率（波长差异约 0.21 mm）对穿透能力和分类性能的影响。
性能突破： 在 10 种常见物体的遮挡分类任务中，ACCOR 在两个频段上均超越了现有的雷达专用模型和适配的图像分类模型。

4. 实验结果 (Results)

4.1 数据集设置

物体： 10 种日常物品（锤子、螺丝刀、除臭剂、计算器、水瓶、塑料杯、线圈、球、杯子、胶带卷）。
设置： 物品放置在封闭的纸板箱内，雷达从上方扫描。
频段： 64 GHz 和 67 GHz，带宽均为 4 GHz。
数据量： 每个频段 500 个样本（共 1000 个），每类 50 个样本。

4.2 分类性能对比

ACCOR 表现：
- 64 GHz: 96.60% 准确率。
- 67 GHz: 93.59% 准确率。
对比模型：
- 优于其他复数雷达模型（如 RadarCNN, SMCNet, Dual-stream CNN）。
- 显著优于适配的图像分类模型（如 ResNet-18, EfficientNet），后者将复数信号拆分为实部/虚部作为伪 RGB 通道输入，导致相位信息丢失，性能大幅下降（ResNet-18 在 64 GHz 仅为 93.36%）。
- Transformer 模型（如 ViT）因数据量不足未能成功训练。

4.3 消融实验 (Ablation Study)

混合损失权重 ( $\alpha$ )：
- 当 $\alpha = 0.4$ 时，64 GHz 达到最佳性能 (96.60%)； $\alpha = 0.5$ 时，67 GHz 达到最佳 (93.89%)。
- 对比损失项的引入（ $\alpha > 0$ ）系统性地提升了特征判别力。t-SNE 可视化显示，加入对比损失后，同类样本聚类更紧密，类间距离更大。
复数 vs. 实值骨干：
- 将复数 CNN 替换为实值 CNN（输入为双通道实数张量）后，性能显著下降（64 GHz 从 96.60% 降至 90.70%），证明了复数域处理对保留相位信息的必要性。

5. 意义与未来展望 (Significance & Conclusion)

意义：

技术验证： 证明了将复数深度学习、注意力机制和对比学习相结合，是处理毫米波雷达原始 IQ 信号的有效途径。
工业应用： 为工业环境中的非视觉检测（如自动化分拣、库存管理、隐蔽物体检测）提供了一种紧凑、低成本且鲁棒的解决方案，无需昂贵的成像雷达阵列。
数据基准： 扩展了公开数据集，增加了 67 GHz 频段，为后续研究频率依赖性提供了基础。

局限与未来工作：

数据集规模： 当前数据集较小，且仅包含一种纸板材质。
频段差异： 64 GHz 和 67 GHz 波长差异较小，穿透性差异不明显。
未来方向： 计划收集更大规模的数据集，涵盖更多波长差异显著的频段、更多种类的物体以及不同的遮挡材料，以构建更通用的雷达感知系统。

总结：
ACCOR 模型通过充分利用毫米波雷达的复数 IQ 信号特性，结合先进的注意力机制和对比学习策略，在遮挡物体分类任务上取得了目前最高的准确率，展示了毫米波雷达在非视觉感知领域的巨大潜力。