Human-CLAP: Human-perception-based contrastive language-audio pretraining

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是关于**“电脑如何听懂人类对声音和文字匹配程度的真实感受”**的故事。

为了让你更容易理解，我们可以把这件事想象成**“招聘翻译”和“考试评分”**的过程。

1. 背景：现在的“翻译官”有点“死板”

在这个领域里，有一个很流行的 AI 模型叫 CLAP。你可以把它想象成一个**“超级翻译官”**。

它的工作：把一段文字（比如“下雨的声音”）和一段音频（真的下雨声）都翻译成一种电脑能懂的“密码”（向量）。
它的逻辑：如果文字和声音的“密码”靠得很近，它就认为它们很匹配；如果离得远，就不匹配。
它的评分（CLAPScore）：以前，人们就用这个“距离”来给匹配程度打分。距离越近，分数越高。

问题出在哪？
这就好比这个翻译官虽然背了字典，但它不懂人类的真实感受。

有时候，文字描述得很完美，但声音有点杂音，人类会觉得“这不太对劲”，给个低分。
但电脑翻译官可能觉得：“哎呀，这两个密码挺像的嘛！”于是给了个高分。
结论：电脑打的分数（CLAPScore）和人类心里觉得的分数，经常对不上号（相关性很低）。

2. 核心发现：电脑和人类的“脑回路”不一样

作者们做了一项调查，找了一大堆人（听众）来听声音、看文字，然后让他们打分（0 到 10 分）。

结果很扎心：把人类的打分和电脑打的分数放在一起对比，发现它们几乎没什么关系。
这意味着，如果我们只用电脑现在的算法来评价“文字转声音”的质量，可能会误导开发者，让他们以为生成的声音很好，其实人类听着很怪。

3. 解决方案：给翻译官请了一位“人类导师”

为了解决这个问题，作者提出了一个新模型，叫 Human-CLAP。

它的做法：不再让翻译官只靠“猜”或者死记硬背数据。而是找来了那些人类听众的打分，作为“标准答案”去重新训练这个翻译官。
训练过程：
- 以前：只要文字和声音是一对，就拼命拉近它们的距离（不管人类觉得像不像）。
- 现在（Human-CLAP）：如果人类觉得“这俩不搭”，哪怕它们长得像，也要把它们推开；如果人类觉得“这俩绝配”，就紧紧锁在一起。
- 比喻：这就像给一个只会死记硬背的学生（旧模型），请了一位经验丰富的老师（人类评分），告诉他：“这道题虽然你算对了公式，但老师觉得你的理解偏了，要按这个思路改！”

4. 实验结果：效果立竿见影

作者们用新方法训练后的模型去重新打分，结果非常惊人：

相关性大幅提升：新模型打出的分数，和人类心里的分数高度一致。
数据说话：它们之间的“默契度”（统计学上的相关系数）提高了 0.17 以上。在 AI 领域，这就像是一个学生从“及格”直接跳到了“优等生”的行列。
特别之处：新模型不仅能识别“好”的匹配，还能敏锐地识别出那些“看起来很匹配但其实很糟糕”的坏例子，并给出低分。

5. 总结：为什么要关心这个？

想象一下，未来我们要用 AI 生成电影配乐、游戏音效或者助听器的声音。

以前：我们只能靠电脑算法说“这个声音不错”，但人类听众可能觉得“太假了”。
现在：有了 Human-CLAP，我们可以让 AI 学会**“像人类一样思考”**。它生成的声音，或者它评价的声音，会更符合人类的耳朵和直觉。

一句话概括：
这篇论文就是给冷冰冰的 AI 评分系统，装上了一颗**“人类的心”**，让它不再只是机械地计算距离，而是真正懂得人类觉得什么是“好听”和“匹配”的。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于Human-CLAP（基于人类感知的对比语言 - 音频预训练）的论文技术总结，该论文发表于 2025 年亚太地区信号与信息处理协会年会（APSIPA ASC）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：对比语言 - 音频预训练（CLAP）模型已被广泛用于音频生成（如文本到音频 TTA）和识别任务。在 TTA 任务中，通常使用 CLAPScore（即音频和文本嵌入向量之间的余弦相似度）作为评估生成音频与文本描述相关性的客观指标。
核心问题：尽管 CLAPScore 被广泛使用，但它与人类主观评估分数之间的相关性尚未明确。
- 研究发现，现有的 CLAPScore 与人类主观评分的相关性较低。
- 原因分析：传统 CLAP 模型假设数据集中的音频 - 文本对是完全匹配的，但实际上数据集中包含噪声（如文本描述不完整或不准确）。这导致模型可能给不合适的音频 - 文本对赋予较高的相似度分数。
- 收集高质量、完全匹配的音频 - 文本对进行训练成本极高。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 Human-CLAP，这是一种利用人类主观评分对预训练 CLAP 模型进行微调的方法。

A. 数据基础

使用了 RELATE 数据集，该数据集包含大量音频 - 文本对的人类主观相关性评分（0-10 分制）。
数据来源包括自然音频（AudioCaps）和多种合成音频（AudioLDM, AudioLDM2, Tango, Tango2）。
经过严格的听者筛选（剔除对锚点样本评分过高的听者），最终保留了约 4700 对经过验证的音频 - 文本数据。

B. 模型架构与训练策略

Human-CLAP 基于预训练的 LAION CLAP 模型进行微调，其核心创新在于损失函数（Loss Function）的设计，旨在将人类的主观感知融入模型：

回归损失 (Regression Loss)：
- 将人类主观评分 $a_i$ 重新缩放至 [0, 1] 范围。
- 计算预测的余弦相似度 $y_i$ 与目标评分 $a_i$ 之间的误差。
- 使用 均方误差 (MSE) 或 平均绝对误差 (MAE) 作为回归损失项 ( $L_{reg}$ )。
加权对比损失 (Weighted Contrastive Loss, wSCE)：
- 传统 CLAP 使用对称交叉熵（SCE）损失，对所有配对一视同仁。
- 作者提出了 wSCE，将重新缩放的主观评分 $a_i$ 作为权重引入 SCE 损失中。
- 逻辑：高相关性的样本（高分）在训练中被赋予更高的权重，强制模型更关注这些样本的嵌入对齐；低相关性样本权重较低。
总损失函数：
$L = \lambda_1 L_{wSCE} + \lambda_2 L_{reg}$
其中 $L_{reg}$ 为 MSE 或 MAE， $\lambda_1, \lambda_2$ 为超参数。

3. 关键贡献 (Key Contributions)

揭示了 CLAPScore 的局限性：通过大规模实验证明，现有的 CLAPScore 与人类主观评分的相关性很低（Spearman 秩相关系数 SRCC 仅为 0.28 左右），不适合作为 TTA 任务的唯一客观评估指标。
提出了 Human-CLAP：提出了一种利用少量（约为传统训练数据 1/320）人类主观评分数据微调 CLAP 模型的新方法。
设计了混合损失函数：创新性地结合了回归损失和加权对比损失（wSCE），使模型能够学习人类对“相关性”的感知，而不仅仅是文本与音频的机械匹配。

4. 实验结果 (Results)

实验在 RELATE 测试集（2405 对数据）上进行，对比了 Baseline (LAION CLAP, MS CLAP) 与不同损失函数组合的 Human-CLAP。

相关性提升显著：
- 最佳模型（wSCE + MAE）将 SRCC 从 0.280 提升至 0.457，提升了约 0.17（论文摘要中提到的提升幅度）。
- 线性相关系数 (LCC) 也从 0.294 提升至 0.481。
- 所有提出的方法在 SRCC、LCC 和 KTAU 指标上均显著优于 Baseline。
不同音频类型的表现：
- 在合成音频（如 AudioLDM2, Tango2）上，Human-CLAP 的相关性提升尤为明显（例如 AudioLDM2 上 SRCC 从 0.288 提升至 0.589）。
- 在自然音频上也有稳定提升。
不同分数段的表现：
- 仅使用 MAE 回归损失的模型难以给低主观评分（接近 0）的样本分配低 CLAPScore。
- 引入 wSCE 后，模型能更准确地识别并给低相关性样本分配低分，证明了加权对比损失在区分“不相关”样本方面的重要性。
可视化验证：
- 散点图显示，经过微调的 Human-CLAP 预测分数与人类主观评分的分布更加一致，尤其是在高低分两端的表现更加合理。

5. 意义与影响 (Significance)

评估标准的革新：证明了在文本到音频生成任务中，单纯依赖预训练模型的嵌入距离（CLAPScore）是不够的，必须引入人类感知作为评估基准。
数据效率：展示了仅需极少量（约 1/320）的高质量人类标注数据，即可显著修正预训练大模型的偏差，使其更符合人类听觉感知。
应用价值：Human-CLAP 可以作为更可靠的自动评估指标，用于指导 TTA 模型的优化，减少生成内容与用户意图不符的情况，提升生成音频的可解释性和可用性（特别是对于听障人士等群体）。

总结：该论文通过引入人类主观评分作为监督信号，成功修正了传统 CLAP 模型在评估音频 - 文本相关性时的偏差，提出了一种高效、低成本且性能显著提升的评估与微调框架（Human-CLAP）。

Human-CLAP: Human-perception-based contrastive language-audio pretraining

1. 背景：现在的“翻译官”有点“死板”

2. 核心发现：电脑和人类的“脑回路”不一样

3. 解决方案：给翻译官请了一位“人类导师”

4. 实验结果：效果立竿见影

5. 总结：为什么要关心这个？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 数据基础

B. 模型架构与训练策略

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Neural Network Tuning of FSMPC for Drives

Universal Speech Content Factorization

A Policy-Aware Cross-Layer Auditing Service for Tiering and Throttling in Starlink

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Robust Wildfire Forecasting under Partial Observability: From Reconstruction to Prediction