Text-Driven Emotionally Continuous Talking Face Generation

该论文提出了名为“情感连续口型生成”(EC-TFG)的新任务及相应的 TIE-TFG 模型,旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频,从而解决现有方法难以模拟人类连续情感变化的问题。

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为EC-TFG(情感连续说话人脸生成)的新技术。为了让你轻松理解,我们可以把这项技术想象成给数字人演员“导演”一场情感丰富的电影

1. 以前的技术:只会“念台词”的机器人

想象一下,以前的“说话人脸”技术就像一个只会照本宣科的机器人

  • 输入:你给它一段文字(比如“你好”)和一个固定的情绪标签(比如“生气”)。
  • 输出:它生成的视频里,这个人从头到尾都板着一张“生气”的脸,哪怕他说的内容其实是开心的,或者语气在慢慢变平静,他的表情也一成不变
  • 问题:这就像让一个演员在演完一场激烈的争吵戏后,下一秒突然毫无过渡地变成微笑,非常生硬、不自然。而且,以前的技术通常只能改视频里的表情,改不了声音里的情绪,导致“嘴在笑,声音在哭”的尴尬场面。

2. 这项新技术:懂“微表情”的金牌导演

这篇论文提出的TIE-TFG模型,就像是一位懂心理学的金牌导演。它不再只给演员一个固定的情绪指令,而是给它一份详细的“情绪剧本”

核心创新点:

  • 从“标签”到“剧本”

    • 以前:你告诉演员“现在要生气”。
    • 现在:你可以告诉演员:“现在很生气,但随着说话,慢慢冷静下来,最后甚至有点无奈。”
    • 比喻:以前的技术是开关(开=生气,关=开心);现在的技术是调光旋钮,可以细腻地调节情绪的亮度和变化曲线。
  • 声画同步的“情感流”

    • 这项技术不仅让跟着情绪变,连声音也跟着变。
    • 比喻:就像你给演员配了智能配音。如果剧本说“从愤怒转为平静”,系统会自动生成一段声音,语速从急促变舒缓,音调从高亢变低沉,同时脸上的表情也同步从“怒目圆睁”过渡到“眉头舒展”。

3. 它是如何工作的?(三个步骤)

想象这个系统是一个三幕剧的制作过程:

  • 第一幕:写剧本(情感音频生成)
    系统先读你给的“情绪描述”和“文字”,利用一个强大的语音合成大脑(TTS),把文字变成带有情感起伏的声音

    • 比如:你输入“我很生气,但慢慢冷静”,它生成的声音就是先吼叫,然后慢慢平息。
  • 第二幕:画分镜(情绪波动预测)
    这是最聪明的地方。系统会分析刚才生成的声音和文字,预测每一句话、甚至每一个词对应的情绪强度

    • 比喻:就像导演在剧本上画了心电图。系统知道哪一秒是“愤怒峰值”,哪一秒是“平静低谷”。它不再把情绪看作一个点,而是一条流动的波浪线
  • 第三幕:拍电影(视频生成)
    最后,系统把这条“情绪波浪线”和声音一起喂给视频生成引擎。引擎会根据波浪线,指挥数字人的嘴唇、眉毛、甚至头部的动作,让它们在每一帧都精准地匹配当下的情绪。

    • 结果:生成的视频里,人物的表情不再是僵硬的,而是像真人一样,随着说话内容自然地流动和变化

4. 为什么这很重要?(实际意义)

  • 更真实:真人说话时,情绪是流动的,不会像机器人一样定格。这项技术让数字人更像“人”。
  • 更灵活:以前想改视频里的情绪,得重新录一遍;现在只需要改一下文字描述(比如把“愤怒”改成“悲伤”),视频和声音就会自动重新生成,完全匹配。
  • 应用广泛
    • 电影制作:导演可以快速生成不同情绪版本的演员表演,不用反复重拍。
    • 虚拟主播/客服:让虚拟人物能根据对话内容,自然地表现出同情、开心或严肃,而不是只会机械地回答。
    • 教育/娱乐:让讲故事的人(数字人)能根据故事的情节,自然地表现出跌宕起伏的情绪。

总结

简单来说,这项技术就是把“死板”的数字人变成了“有血有肉”的演员。它不再只是机械地动嘴皮子,而是能听懂你给的“情绪剧本”,让声音、表情和动作像真人一样,随着故事的发展自然流淌、起伏变化