Human-CLAP: Human-perception-based contrastive language-audio pretraining

该论文指出传统 CLAP 评分与人类主观评价相关性较低,并提出了一种基于人类感知的主观评分训练的 Human-CLAP 模型,使其与主观评价的斯皮尔曼等级相关系数提升了 0.25 以上。

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi Saruwatari

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是关于**“电脑如何听懂人类对声音和文字匹配程度的真实感受”**的故事。

为了让你更容易理解,我们可以把这件事想象成**“招聘翻译”“考试评分”**的过程。

1. 背景:现在的“翻译官”有点“死板”

在这个领域里,有一个很流行的 AI 模型叫 CLAP。你可以把它想象成一个**“超级翻译官”**。

  • 它的工作:把一段文字(比如“下雨的声音”)和一段音频(真的下雨声)都翻译成一种电脑能懂的“密码”(向量)。
  • 它的逻辑:如果文字和声音的“密码”靠得很近,它就认为它们很匹配;如果离得远,就不匹配。
  • 它的评分(CLAPScore):以前,人们就用这个“距离”来给匹配程度打分。距离越近,分数越高。

问题出在哪?
这就好比这个翻译官虽然背了字典,但它不懂人类的真实感受

  • 有时候,文字描述得很完美,但声音有点杂音,人类会觉得“这不太对劲”,给个低分。
  • 但电脑翻译官可能觉得:“哎呀,这两个密码挺像的嘛!”于是给了个高分。
  • 结论:电脑打的分数(CLAPScore)和人类心里觉得的分数,经常对不上号(相关性很低)。

2. 核心发现:电脑和人类的“脑回路”不一样

作者们做了一项调查,找了一大堆人(听众)来听声音、看文字,然后让他们打分(0 到 10 分)。

  • 结果很扎心:把人类的打分和电脑打的分数放在一起对比,发现它们几乎没什么关系
  • 这意味着,如果我们只用电脑现在的算法来评价“文字转声音”的质量,可能会误导开发者,让他们以为生成的声音很好,其实人类听着很怪。

3. 解决方案:给翻译官请了一位“人类导师”

为了解决这个问题,作者提出了一个新模型,叫 Human-CLAP

  • 它的做法:不再让翻译官只靠“猜”或者死记硬背数据。而是找来了那些人类听众的打分,作为“标准答案”去重新训练这个翻译官。
  • 训练过程
    • 以前:只要文字和声音是一对,就拼命拉近它们的距离(不管人类觉得像不像)。
    • 现在(Human-CLAP):如果人类觉得“这俩不搭”,哪怕它们长得像,也要把它们推开;如果人类觉得“这俩绝配”,就紧紧锁在一起。
    • 比喻:这就像给一个只会死记硬背的学生(旧模型),请了一位经验丰富的老师(人类评分),告诉他:“这道题虽然你算对了公式,但老师觉得你的理解偏了,要按这个思路改!”

4. 实验结果:效果立竿见影

作者们用新方法训练后的模型去重新打分,结果非常惊人:

  • 相关性大幅提升:新模型打出的分数,和人类心里的分数高度一致
  • 数据说话:它们之间的“默契度”(统计学上的相关系数)提高了 0.17 以上。在 AI 领域,这就像是一个学生从“及格”直接跳到了“优等生”的行列。
  • 特别之处:新模型不仅能识别“好”的匹配,还能敏锐地识别出那些“看起来很匹配但其实很糟糕”的坏例子,并给出低分。

5. 总结:为什么要关心这个?

想象一下,未来我们要用 AI 生成电影配乐、游戏音效或者助听器的声音。

  • 以前:我们只能靠电脑算法说“这个声音不错”,但人类听众可能觉得“太假了”。
  • 现在:有了 Human-CLAP,我们可以让 AI 学会**“像人类一样思考”**。它生成的声音,或者它评价的声音,会更符合人类的耳朵和直觉。

一句话概括
这篇论文就是给冷冰冰的 AI 评分系统,装上了一颗**“人类的心”**,让它不再只是机械地计算距离,而是真正懂得人类觉得什么是“好听”和“匹配”的。