AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

本文提出了 AULLM++ 框架,通过利用大语言模型进行结构化推理,结合多粒度证据融合、关系感知图神经网络及反事实一致性正则化,有效解决了微表情动作单元检测中视觉信息依赖性强、特征粒度粗糙及动作单元间关联缺失的问题,从而在标准基准和跨域泛化上实现了最先进的性能。

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AULLM++ 的新系统,它的任务是**“读懂微表情”**。

想象一下,微表情就像是你朋友脸上一闪而过的“微表情”:可能只是眉毛极其轻微地挑了一下,或者嘴角极其短暂地抽动了一瞬间。这些动作非常微弱,持续时间极短,而且很容易被背景噪音(比如光线变化、头部的晃动)所掩盖。

以前的电脑程序在看这些微表情时,就像是一个近视眼且只会死记硬背的学生

  1. 看不清细节:因为信号太弱,它容易把背景噪音当成表情。
  2. 不懂逻辑:它把脸上的每一块肌肉(比如“皱眉”和“抿嘴”)当作完全独立的事情来看,不知道它们之间是有生理联系的(比如生气时,皱眉和抿嘴通常会同时发生)。
  3. 换个环境就懵了:如果在 A 实验室训练,到了 B 实验室(光线不同、人种不同),它就完全不会认了。

AULLM++ 是怎么解决这些问题的呢?

作者给电脑装了一个**“超级大脑”(大语言模型 LLM),并教它用“侦探推理”**的方式来工作,而不是简单的“看图说话”。我们可以把这个过程分为三个步骤:

1. 证据收集:把“模糊的线索”变成“清晰的证词”

  • 以前的做法:像用广角镜头拍一张模糊的合照,细节都糊在一起了。
  • AULLM++ 的做法(MGE-EFP 模块):它像一个高明的法医。它不仅能看清全局(脸的整体状态),还能用特殊的“放大镜”(高频纹理增强)去捕捉那些极其细微的肌肉颤动。
  • 比喻:它把原本杂乱无章的视觉信号,提炼成了一张张精炼的“证据卡片”(Visual Content Token),告诉大模型:“看,这里有一块肌肉在轻微抽搐,这是关键线索。”

2. 建立关系:请“解剖学专家”做顾问

  • 以前的做法:大模型看到“皱眉”和“抿嘴”同时出现,可能以为是两个独立事件,甚至猜错。
  • AULLM++ 的做法(R-AUGNN 模块):它引入了一个**“面部解剖学专家”**(基于 FACS 系统的知识图谱)。这个专家知道,人的面部肌肉是有物理连接和协同关系的。
  • 比喻:这就好比在推理前,专家先给大模型发了一张**“肌肉关系说明书”(Instruction Token)。专家说:“注意,如果‘皱眉’发生了,根据生理结构,‘嘴角下垂’很可能也会发生,它们是一对搭档。”这样,大模型推理时就有了物理常识**作为指导,不会瞎猜。

3. 逻辑推理:大侦探破案

  • 以前的做法:直接根据图片概率猜结果(比如:80% 是生气,20% 是惊讶)。
  • AULLM++ 的做法(LLM 推理):大模型现在手里拿着**“证据卡片”(视觉线索)和“关系说明书”(解剖知识)。它不再只是“看”,而是在“思考”**。
  • 比喻:大模型像一个福尔摩斯。它看着证据说:“根据解剖学规则,这块肌肉的抽动通常伴随着那个动作,而且这个动作组合只符合‘愤怒’的逻辑,不符合‘惊讶’。”最后,它通过逻辑推导得出结论,而不是简单的概率匹配。

4. 防作弊训练:反事实思维(CCR)

  • 问题:模型可能会偷懒,比如它发现“只要背景是白色的,就是生气”,而不是真的看表情。
  • AULLM++ 的做法:在训练时,它玩了一个**“如果……会怎样”**的游戏。
  • 比喻:训练师会故意把“关系说明书”里的某一条规则改一下(比如:“假设皱眉时,嘴角不应该下垂”),然后问模型:“如果这样,你的结论会变吗?”如果模型因为背景是白色的就坚持说“是生气”,那它就会受到惩罚。这迫使模型必须真正理解肌肉之间的因果逻辑,而不是死记硬背背景特征。

总结:为什么它这么厉害?

  • 更敏锐:它能把微弱的信号从噪音中“提纯”出来。
  • 更懂行:它利用了人类面部解剖学的常识,不再把表情看作孤立的点。
  • 更抗造:因为它学会了逻辑推理因果规律,而不是死记硬背数据,所以即使换了一个完全不同的环境(比如从亚洲人换到非洲人,或者从室内换到室外),它依然能认出微表情。

一句话概括:
AULLM++ 不再是一个只会“看图猜谜”的机器,它变成了一个懂解剖学、会逻辑推理、能透过现象看本质的“微表情侦探”