Toward Complex-Valued Neural Networks for Waveform Generation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ComVo 的新型语音合成技术。为了让你轻松理解，我们可以把“让电脑说话”这件事想象成让一位画家（AI）画出一幅逼真的风景画（声音波形）。

1. 以前的画家遇到了什么麻烦？（背景与问题）

在 ComVo 出现之前，大多数语音合成模型（比如 HiFi-GAN, Vocos 等）就像是一位只懂“分块作画”的画家。

传统的做法：声音在电脑里被处理成一种叫“复数频谱”的复杂数据。这种数据包含两个部分：幅度（声音有多响，像画的颜色深浅）和相位（声音的时间节奏，像画笔触的先后顺序）。
旧模型的局限：以前的模型（实数网络）把这两个部分强行拆开，像两个互不认识的助手一样分别处理。
- 比喻：想象你要画一幅画，助手 A 只管涂颜色，助手 B 只管画线条。他们之间没有交流，不知道颜色应该配什么线条。结果画出来的画虽然像那么回事，但细节总是有点“对不上号”，声音听起来不够自然，或者需要花很多时间去“修补”（增加计算成本）。

2. ComVo 是怎么做的？（核心创新）

ComVo 就像是一位精通“复数艺术”的大师，它不再把声音拆成两半，而是把“幅度”和“相位”看作一个不可分割的整体（复数）来同时处理。

创新点一：复数神经网络（CVNN）——“左右手协同”

比喻：以前的模型是“左手画圆，右手画方”，互不干扰。ComVo 的生成器和判别器（负责挑刺的裁判）都变成了复数神经网络。
效果：就像一位钢琴家，左手和右手必须完美配合才能弹出美妙的旋律。ComVo 能同时理解声音的“响度”和“节奏”之间微妙的数学关系，从而画出更自然、更连贯的声音波形。

创新点二：相位量化（Phase Quantization）——“给混乱的指南针加刻度”

问题：在处理声音的“相位”（时间节奏）时，AI 容易晕头转向，产生混乱的波动。
比喻：想象你在一个没有刻度的罗盘上找方向，AI 可能会转晕。ComVo 引入了一个**“相位量化”层，就像给罗盘加上了固定的刻度**（比如只允许指向 0 度、90 度、180 度等）。
效果：这强迫 AI 在训练时遵循更清晰的规则，防止它“走火入魔”，让生成的声音更稳定、更清晰。

创新点三：块矩阵计算（Block-matrix）——“流水线升级”

问题：复数运算通常比实数运算慢，因为要处理的数据量翻倍（实部 + 虚部）。
比喻：以前的电脑处理复数，就像让四个工人分别搬砖、砌墙、抹灰、刷漆，每个人都要单独跑一趟。ComVo 发明了一种**“块矩阵”方案，就像把这四个工人的工作整合成一条自动化流水线**，一次操作就能完成所有步骤。
效果：虽然画的画更复杂了，但训练速度反而快了 25%，就像用新式机器代替了旧式手工，效率大增。

3. 结果怎么样？（实验结论）

论文通过大量实验证明，ComVo 这位“新画家”表现非常出色：

声音更好听：在客观测试（机器打分）和主观测试（人耳听感）中，ComVo 生成的语音比之前的顶尖模型（如 Vocos, BigVGAN）更自然、更清晰，更像真人在说话。
效率更高：通过“流水线”优化，训练时间缩短了四分之一。
通用性强：不仅在说话任务上表现好，在音乐生成（如人声、鼓声分离）任务中也表现出色。

总结

简单来说，ComVo 就是给 AI 语音合成装上了一副“复数眼镜”。它不再把声音的“响度”和“节奏”割裂开来，而是让它们手牵手一起工作，并给 AI 提供了一些清晰的规则（相位量化）和更快的工具（块矩阵计算）。

最终结果是：电脑说出的话，听起来更像真人，而且学得更快、更聪明。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于复值神经网络（Complex-Valued Neural Networks, CVNNs）在波形生成（特别是语音合成）中应用的学术论文，标题为《Toward Complex-Valued Neural Networks for Waveform Generation》（迈向用于波形生成的复值神经网络），发表于 ICLR 2026。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有技术的局限性： 基于逆短时傅里叶变换（iSTFT）的神经声码器（Vocoders）近年来因其无需学习上采样（learned upsampling）且计算效率较高而受到关注。然而，现有的 iSTFT 声码器（如 iSTFTNet, Vocos 等）通常使用实值神经网络（RVNNs）。
核心痛点： 这些实值网络将复数频谱的**实部（Real）和虚部（Imaginary）**作为独立的通道进行处理。这种分离处理的方式忽略了复数频谱中实部与虚部之间固有的代数结构和耦合关系（即幅度与相位的内在依赖），限制了模型捕捉复杂频谱结构的能力。
挑战： 直接在复数域进行建模需要解决复数域非线性激活函数的设计、相位的不稳定性以及复数运算带来的计算效率问题。

2. 方法论 (Methodology)

作者提出了 ComVo，这是首个在生成器和判别器中均采用原生复数运算的 iSTFT 基声码器。其核心架构包括：

A. 复值对抗训练框架 (Complex-Domain Adversarial Training)

生成器 (Generator)： 基于 Vocos 架构改进，所有卷积和归一化层均在复数域实现。使用复数 ConvNeXt 块，并采用分裂式（Split）GELU 激活函数以维持复数结构。
判别器 (Discriminator)：
- cMRD (Complex Multi-Resolution Discriminator)： 直接在复数频谱输入上运行，使用复数层。它由多个不同 STFT 分辨率的子判别器组成，对复数输出的实部和虚部分别应用对抗损失。
- MPD (Multi-Period Discriminator)： 保持为实值网络，作用于波形域，提供周期性结构的监督。
优势： 生成器和判别器均在复数域交互，使得对抗反馈能够尊重复数域的内在结构，从而更好地指导相位和幅度的联合优化。

B. 结构化非线性变换：相位量化 (Phase Quantization)

问题： 复数域中的相位在训练过程中容易发生漂移或不稳定。
方案： 引入相位量化层。将连续相位角 $\theta$ $θ$ 离散化为固定数量的量化级别（ $N_q$ $N_{q}$ ）。
- 公式： $\theta_q = \frac{2\pi}{N_q} \cdot \text{round}(\frac{N_q}{2\pi} \theta)$ 。
- 直传估计器 (STE)： 为了保持端到端的可微性，前向传播进行量化，反向传播时梯度近似为恒等函数。
作用： 作为一种归纳偏置（Inductive Bias），限制中间表示中不必要的相位变化，引导网络学习更连贯、结构化的相位模式，起到正则化作用。

C. 块矩阵计算方案 (Block-Matrix Computation Scheme)

问题： 在自动微分系统中，复数运算通常被拆分为实部和虚部的独立张量操作，导致冗余计算和内存访问效率低下。
方案： 将复数运算重构为实值块矩阵乘法。
- 复数乘法 $Wz$ 被转化为一个 $2 \times 2$ 的实值块矩阵与堆叠的实/虚输入向量的乘法。
- 公式形式： $\begin{bmatrix} \text{Re}(z') \\ \text{Im}(z') \end{bmatrix} = \begin{bmatrix} W_r & -W_i \\ W_i & W_r \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}$ 。
优势： 将原本需要 4 次独立实数乘法的操作融合为 1 次块矩阵乘法，显著减少了计算图节点数量，提高了 GPU 并行效率。

3. 主要贡献 (Key Contributions)

首个复值 iSTFT 声码器： 提出了 ComVo，是首个在生成器和判别器两端均采用复值神经网络的 iSTFT 声码器，建立了复数域对抗训练框架。
相位量化机制： 提出了一种定制的相位量化非线性操作，作为稳定训练的正则化项，有效解决了复数域相位学习的不稳定性。
高效计算实现： 设计了块矩阵计算方案，通过融合复数运算，将训练时间减少了 25%，同时保持了数值精度。
性能提升： 实验证明，复值建模在合成质量上显著优于现有的实值基线模型。

4. 实验结果 (Results)

实验在 LibriTTS（语音）和 MUSDB18-HQ（音乐分离）数据集上进行，对比了 HiFi-GAN, iSTFTNet, BigVGAN, Vocos 等主流模型。

客观指标：
- 在 LibriTTS 上，ComVo 在所有客观指标（UTMOS, MR-STFT, PESQ, Periodicity, V/UV F1）上均取得了最高分。例如，UTMOS 达到 3.6901（优于 Vocos 的 3.6025），MR-STFT 误差最低（0.8439）。
- 在 MUSDB18-HQ 上，ComVo 同样在所有客观指标上领先，显示出其在不同音频领域的泛化能力。
主观指标：
- MOS（平均意见得分）和 CMOS（比较平均意见得分）显示，ComVo 的听感质量与最强基线相当或略优，特别是在音乐混合音轨上表现优异。
消融实验：
- 复值建模 vs. 实值建模： 将生成器或判别器替换为复值版本均能提升性能，两者结合（GCDC）效果最佳。Grad-CAM 可视化显示，复值判别器能更精准地关注语音相关的频谱结构。
- 相位量化： 设置 $N_q=128$ 时，在保持重建精度的同时显著提升了感知质量（UTMOS 和 PESQ）。
- 计算效率： 块矩阵方案相比原生 PyTorch 复数实现，训练时间减少了 25%，且反向传播节点数大幅减少（生成器减少 55%，判别器减少 67%）。
扩展性分析： 即使将实值模型的参数量翻倍以匹配复值模型的显存占用，复值模型（ComVo）在同等显存成本下仍表现出更高的质量，证明其性能提升源于复数域建模的内在优势，而非仅仅是参数量的增加。

5. 意义与结论 (Significance & Conclusion)

理论意义： 该工作证明了在处理具有固有实 - 虚依赖关系的数据（如复数频谱）时，复值神经网络比实值网络具有更强的表征能力。它打破了传统声码器将复数频谱拆分为独立通道处理的惯例。
工程价值： 提出的相位量化和块矩阵计算方案解决了复值神经网络在语音生成中训练不稳定和计算效率低下的实际工程问题，使得复值模型具备实用价值。
未来展望： 作者计划将此框架扩展到扩散模型（Diffusion）和流匹配（Flow-matching）等其他生成范式，并探索更丰富的复数域激活函数和损失函数。

总结： ComVo 通过全复数域的对抗训练、相位量化正则化以及高效的块矩阵计算，成功解决了现有 iSTFT 声码器无法有效建模复数频谱结构的痛点，在合成质量和训练效率上均实现了显著突破。