原作者： Rejoy Chakraborty, Archisman Adhikary, Chayan Halder, Payel Rakshit, Sanchita Ghosh, Kaushik Roy

发布于 2026-06-02✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Rejoy Chakraborty, Archisman Adhikary, Chayan Halder, Payel Rakshit, Sanchita Ghosh, Kaushik Roy

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图通过观察一个人的神态来理解他们的感受。有时，一个微笑意味着他们很快乐；但有时，它可能意味着他们在礼貌待人，或者在掩饰悲伤。现在，想象一下尝试让计算机也做到这一点，但计算机只能获取瞬间的静态图像。这就像试图通过看电影的一帧画面来猜出整个剧情——很容易出错。

这篇论文介绍了一种名为 MSFERNet（多尺度面部表情识别网络）的新系统，旨在解决这个问题。你可以把它想象成一个“智能摄像头”，它不仅仅是看一眼脸部，而是观察脸部随时间的变化，就像心理学家在咨询过程中观察病人一样。

以下是该系统的运作方式，使用了简单的类比：

1. 问题所在：情绪是一部电影，而非一张照片

作者指出，情绪并非静止不变的；它们是流动且变化的。一个人可能会从平静开始，变得有些烦躁，然后又冷静下来。大多数旧的计算机系统就像摄影师，只拍一张照片并猜测情绪。这篇论文认为，要真正理解一个人，你需要观看他们脸部的“电影”。

2. 解决方案：多镜头相机 (MSFERNet)

该系统的核心是我们构建的一种新型 AI 架构。想象一位正在侦破案件的侦探：

“广角”镜头： 系统的一部分观察大局（脸部的整体轮廓）。
“变焦”镜头： 其他部分则放大细节（嘴角的一丝抽动或眉间的皱纹）。
“记忆”（残差学习）： 就像一位会记住当天早些时候线索的侦探，这个系统使用“残差块”来记住它之前看到的内容，这样在进行更深层的挖掘时就不会丢失故事脉络。
“聚光灯”（注意力机制）： 系统内置了一个聚光灯（称为 CBAM），它会忽略背景（如杂乱的房间或窗户），专注于脸部，突出最重要的部分。

3. 大脑训练：从群体中学习

为了教导这个系统，研究人员不仅仅是给它看图片并说“这是开心”。他们使用了一种名为监督对比学习的技术。

类比： 想象一位老师向学生展示一堆红苹果和一堆绿苹果。老师不是简单地说“红色就是红色”，而是说：“观察这些红苹果彼此之间有多相似，以及它们与绿苹果有多不同。”
通过将相似的情绪归为一组，并将不同的情绪推开，计算机在其“大脑”中学习到了更清晰的情绪轮廓。

4. 简化语言：三色系统

研究人员意识到现实生活是很复杂的。一个标准的数据库通常有 7 或 8 种不同的情绪（愤怒、厌恶、恐惧、悲伤、快乐、惊讶、中性等）。

类比： 他们决定将其简化为用于实时应用的“交通灯”系统：
- 绿色： 正向（快乐）
- 黄色： 中性
- 红色： 负向（愤怒、厌恶、恐惧、悲伤）
他们特意去掉了“惊讶”，因为就像电影中的情节转折一样，“惊讶”的含义取决于语境，这会让快速分析变得过于复杂。

5. 实时工具 (RT-FER)

他们开发了一个用户友好的应用程序，名为 RT-FER。

运作方式： 你可以上传视频或使用你的摄像头。系统会抓取每一帧中的脸部，通过“多镜头相机”进行处理，并给出评分。
评分： 它将情绪转化为 -1 到 1 之间的数字。
- -1 是纯粹的负向。
- 0 是中性。
- +1 是纯粹的正向。
图表： 随着视频播放，系统会绘制一条线图，显示你的情绪如何随时间“起伏波动”。

6. 结果：快速、轻量且准确

团队在标准数据集（如 FER13 和 CK+）上测试了他们的系统。

性能： 表现非常出色，在一个数据集上达到了约 96.77% 的准确率，在他们简化的三情绪版本上达到了 81.08%。
效率： 最棒的部分是该系统是“轻量级”的。它只有 2.37 百万个参数（你可以把这些参数理解为计算机需要记忆的规则数量）。相比于那些像沉重缓慢卡车的其他系统，这个系统就像一辆灵巧的自行车。它足够小，可以在普通设备上运行，而不需要超级计算机。

7. 缺陷（误差分析）

作者诚实地指出了其缺陷。如果训练数据中有“坏照片”——比如一张带有 Logo 的照片，或者一张脸部被巨大水印遮挡的照片——系统就会产生困惑。这就像试图用一张画了狗耳朵的猫的照片来教孩子识别狗一样。

总结

简而言之，这篇论文展示了一个智能且轻量级的 AI，它像人类观察者一样观察脸部，寻找随时间变化的特征，而不是仅仅看单一的快照。它将复杂的情绪简化为清晰的“正向/负向/中性”评分，使其成为实时视频中追踪情绪变化的有用工具。

技术摘要：一种用于实时面部表情识别的多尺度监督对比学习网络

问题陈述

实时面部表情识别（FER）面临着显著挑战，特别是在视频场景中，情绪状态是连续演变的，而非离散的。一个主要的难点在于面部表情存在高度的个体差异以及情绪的模糊性（例如，微笑可能根据语境表示快乐、礼貌或讽刺）。此外，现有研究主要集中在静态图像识别或单帧分类上，在分析长时间跨度内的情绪变化能力方面存在空白。这种局限性阻碍了对个体心理状态的全面理解，而这对于专家与患者比例不足的心理学和咨询应用至关重要。

方法论

作者提出了一个由用于特征提取和分类的深度学习架构以及实时应用界面组成的两阶段系统。

1. MSFERNet 架构

该系统的核心是 MSFERNet（多尺度面部表情识别网络），旨在解决深度序列 CNN 中常见的特征退化和梯度消失问题。该架构包含：

骨干网络： 利用预训练的 EfficientNet-B0 的早期阶段来提取低级和中级语义特征，与使用完整网络相比，降低了计算复杂度。
残差细化： 提取的特征图通过一个包含 $3 \times 3$ 卷积、批归一化（Batch Normalization）、ReLU 以及带有跳跃连接的残差块（Residual Block）组成的细化模块，以保留恒等映射并稳定梯度流。
多尺度特征提取： 网络采用具有 $3 \times 3$ $3 \times 3$ 和 $5 \times 5$ $5 \times 5$ 卷积核的并行卷积分支。
- 阶段 1： 分支通过逐元素相加进行组合。
- 阶段 2： 分支通过通道拼接（channel-wise concatenation）进行组合，以保留来自不同感受野的互补信息。
注意力机制： 在每个多尺度阶段之后应用卷积块注意力模块（CBAM），通过顺序强调具有信息量的面部区域（通道和空间注意力）来抑制背景噪声。
分类头： 特征经过下采样、全局池化后，传递至带有 Dropout (0.3) 的全连接层（128 和 64 个单元），以防止过拟合。
监督对比学习： 投影头将特征映射到一个归一化的嵌入空间。模型使用组合损失函数进行训练：
$L = 1.0 \times L_{cross} + 0.1 \times L_{sup}$
其中 $L_{cross}$ 是类别交叉熵损失， $L_{sup}$ 是监督对比损失，旨在通过将正样本（同类）拉近并在嵌入空间中将负样本推开，来学习更好的情绪特征表示。

2. 数据集预处理与修改

本研究使用了 FER13 和 CK+ 数据集。为了符合辅助心理学家识别广泛心理状态的目标，作者将标准的 7 类 FER13 数据集修改为 3 类系统：

正面 (Positive)： 源自“快乐 (Happy)”类。
负面 (Negative)： 合并了“愤怒 (Angry)”、“厌恶 (Disgust)”、“恐惧 (Fear)”和“悲伤 (Sad)”。
中性 (Neutral)： 保持不变。
注：由于“惊讶 (Surprise)”类具有高度的语境依赖性且容易引发混合情绪，因此将其排除在外。
预处理： 图像被调整为 $128 \times 128$ 大小，并应用了标准的数据增强（平移、缩放、剪切、翻转）。损坏的图像被过滤掉。

3. RT-FER 系统

开发了一个名为 RT-FER 的用户友好型应用程序，用于演示实时监控。它捕获实时视频或处理上传的视频，从帧中提取面部，并将其输入训练好的 MSFERNet。系统输出：

情绪预测： 预测的类别及其置信度分数。
情绪评分： 一个连续得分，计算公式为 $Score = p_{positive} - p_{negative}$ （将负面映射为 -1，中性映射为 0，正面映射为 1）。
可视化： 图形界面显示视频流以及实时追踪情绪得分随时间变化的图表。

核心贡献

MSFERNet 架构： 提出了一种结合了迁移学习、残差机制和监督对比学习的多尺度、基于注意力的网络。
数据集适配： 创建了一个经过修改的 3 类 FER13 数据集，专门用于心理状态分析，解决了缺乏标准数据集来表示广泛情绪类别的不足。
RT-FER 应用： 开发了一个功能性的 GUI，允许进行实时情绪监控，并实现情绪随时间变化的趋势可视化，包括一个视频播放器以观察由语境引起的情绪转变。

实验结果

模型在 FER13（原始 7 类和修改后的 3 类）和 CK+ 数据集上进行了评估，采用 80:10 的训练-测试集划分。

性能：
- FER13 (7 类)： 准确率为 66.73%。
- FER13 (3 类)： 准确率为 81.08%。
- CK+： 准确率为 96.77%。
效率： 该模型仅包含 237 万个可训练参数，这使得它比 AlexNet (62.30M) 或 VGGNet (84.00M) 等最先进模型在资源利用上更加高效。
监督对比损失的影响： 加入 $L_{sup}$ 提高了所有数据集的准确率（例如，FER13 7 类从 64.19% 提高到 66.73%；CK+ 从 95.56% 提高到 96.77%）。
对比： 提出的 MSFERNet 在保持较低参数量的同时，在 FER13 和 CK+ 数据集上均优于现有的多种 SOTA 模型。

意义与局限性

论文声称所提出的系统弥补了静态情绪识别与连续心理状态监测之间的鸿沟。通过提供一个追踪情绪随时间变化的工具，它为心理学家提供了获取受试者情绪状态额外见解的潜在手段，从而可能减轻手动观察的负担。

作者谦虚地承认了局限性，指出尽管进行了预处理，但训练数据中仍包含错误的样本（例如带有 Logo 或水印的图像），这影响了训练。他们还强调，由于图像质量的变化以及面部表情固有的模糊性，实时识别仍然具有挑战性。该工作得出结论，虽然目前的结果令人满意，但未来可以通过在更大的现实世界数据集上进行训练以及引入更强的注意力机制来实现进一步的改进。

A Multiscale Network with Supervised Contrastive Learning for Real-Time Facial Emotion Recognition