UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

本文提出了首个无需文本中间介质的统一框架 UniCUE,通过融合手语识别任务以提供细粒度视觉语义线索,直接实现从中文手语视频到语音的生成,并构建了包含 14 位发音人的大规模数据集 UniCUE-HI 以验证其卓越性能。

Jinting Wang, Shan Yang, Chenxing Li, Dong Yu, Li Liu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UniCUE 的新技术,它的目标是解决一个非常特殊且重要的问题:如何把“手语 + 口型”的视频,直接变成清晰、自然的语音,让听障人士和正常人能无障碍交流。

为了让你更容易理解,我们可以把这项技术想象成**“翻译官”的进化史**。

1. 背景:什么是“指语”(Cued Speech)?

想象一下,听障人士在看人说话时,光靠看嘴巴(唇读)是不够的。因为很多发音(比如“巴”和“帕”)嘴巴动作几乎一样,很难分清。
为了解决这个问题,发明了一种叫**“指语”**的系统:

  • 嘴巴负责展示元音(像嘴巴的形状)。
  • 负责展示辅音(像手指的形状和位置)。
  • 核心逻辑:手和嘴巴配合,就像给语音加上了“高清字幕”和“拼音标注”,让听障人士能精准地“看”懂每一个字。

2. 痛点:以前的方法哪里不行?

以前如果想把这种“指语视频”变成声音,主要有两种笨办法:

  • 办法 A(先转文字,再转声音):
    • 比喻:就像让一个翻译官先把视频里的内容写下来(识别成文字),然后再让另一个机器人照着文字念出来
    • 缺点:如果翻译官看错了(比如把“巴”看成“帕”),机器人就会念错。而且,文字是静态的,机器人念出来的声音节奏,可能和视频里手和嘴的动作对不上号,听起来很别扭。
  • 办法 B(直接看图说话):
    • 比喻:就像让机器人直接看视频,然后凭感觉把声音“变”出来。
    • 缺点:因为“指语”太复杂(手、嘴、时间差都要考虑),而且这种视频数据很少,机器人很容易“学傻”,生成的声音要么像机器人,要么根本听不懂。

3. 解决方案:UniCUE 是什么?

UniCUE 就像是一个**“超级全能翻译官”,它不再分两步走,而是一边看、一边理解、一边直接说话**。

它的核心创新可以用三个“魔法道具”来解释:

道具一:【透视眼】(Pose-aware Visual Processor)

  • 作用:以前的机器人只看视频画面,画面里全是噪点。UniCUE 戴上了“透视眼镜”,能同时看清嘴巴的细微动作手指的精准位置
  • 比喻:就像看魔术表演,普通人只看手在动,但 UniCUE 能同时看到魔术师的手法和道具的轨迹,从而精准判断他在变什么戏法。它能捕捉到“手比嘴快”这种微妙的时间差。

道具二:【对齐池】(Semantic Alignment Pool)

  • 作用:它强迫机器人把“看到的动作”和“听到的意思”紧紧绑在一起。
  • 比喻:就像教小孩子认字,不仅要看图,还要大声读出来,并且老师会不断纠正:“这个动作对应的是‘苹果’,不是‘梨子’"。通过这种“对比学习”,机器人学会了动作和声音之间最精准的对应关系,不会张冠李戴。

道具三:【翻译转换器】(VisioPhonetic Adapter, VPA)

  • 作用:这是最关键的桥梁。它把机器人“看懂”的复杂视觉信息,转换成声音生成模型能听懂的“密码”。
  • 比喻:想象机器人脑子里有一堆复杂的“动作图纸”,直接给声音合成器看它看不懂。VPA 就像一个高级翻译,把“图纸”翻译成声音合成器能执行的“乐谱”,确保生成的声音既符合动作,又自然流畅。

4. 为什么 UniCUE 这么厉害?

  • 不走弯路:它跳过了“先转文字”这个容易出错的中间环节,直接从视频到声音,减少了“传话传错”的风险。
  • 懂行:它利用了“指语识别”(CSR)的聪明大脑来辅助“指语生成”(CSV2S)。就像让一个经验丰富的老翻译官(识别任务)手把手教新手(生成任务),新手进步飞快。
  • 更真实:它不仅让正常人能听懂,还专门针对听障人士的数据进行了训练。因为很多听障人士说话时嘴巴动作可能不太标准,UniCUE 能理解这些“不标准”,并生成清晰的声音。

5. 成果如何?

研究人员还专门收集了一个包含1.1 万多条视频的新数据集(UniCUE-HI),里面有听障人士和正常人的指语视频。

  • 测试结果:UniCUE 生成的语音,在准确度(听不听得懂)、同步性(声音和动作对得齐不齐)以及自然度(像不像真人说话)上,都打败了目前世界上最好的其他方法。

总结

简单来说,UniCUE 就是给听障人士的“指语”装上了一个超级智能的“扩音器”。它不再需要把动作先翻译成文字再读出来,而是直接“看”懂动作,瞬间“变”出清晰、自然、同步的语音。这就像让听障人士和正常人之间的沟通,从“发传真”变成了“面对面打电话”,极大地消除了沟通障碍。