When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

この論文は、多様な訓練データを用いてLoRAで微調整されたQwen-0.5Bモデルが、音声クローンタスクにおいて話者一貫性、知覚品質、信号対雑音比のすべてにおいて凍結ベースモデルを上回ることを示し、データ多様性がLLMベースTTSの汎化性能を決定づける要因であることを実証しています。

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

この論文は、事前学習済みモデルを凍結したまま、混合音声と過去の推定値を補間して候補を生成し、侵入型または非侵入型の指標を最適化することで反復的に改善を行う、教師なしの多段階推論手法を提案し、ターゲット話者抽出の精度向上と実用性を両立させることを示しています。

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

既存のテキスト音楽生成モデルが抱える微細な時間制御の課題を、対データなしで動画イベントと音楽イベントの時間的変化構造をそれぞれ独立して捉える「イベント曲線」を用いることで解決し、動画に時間的に同期した音楽を生成するゼロショット手法「V2M-Zero」を提案した。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

LLM 音声合成モデルの感情・話者適応において、全パラメータの微調整に代わり、感情と話者情報の寄与を動的に分析して特定の 2 層のみを選択的に微調整する「CSP-FT」手法を提案し、学習速度の向上と忘却の抑制を実現しつつ、フル微調整と同等以上の忠実度と明瞭さを達成することを示しました。

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

この論文は、ノイズを含む音声から意味情報を失わずに視覚情報を用いて特徴を洗練させるコンフォーマーベースのバトネック融合モジュールを備えたエンドツーエンドの音声増強フレームワークを提案し、LRS3 ベンチマークにおいて既存のマスクベース手法を上回る頑健な音声・視覚音声認識性能を実現することを示しています。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

本論文は、限られたアノテーションと強いドメインシフトに直面する乳児の泣き声分類において、MFCC、STFT、ピッチ特徴を統合した多ブランチ CNN と、LSTM よりも効率的な時間ダイナミクスモデルである Legendre Memory Unit(LMU)を用いたコンパクトなフレームワークを提案し、エントロピーゲート付きの校正された事後確率アンサンブル融合により、クロスドメイン評価での汎化性能とリアルタイム処理能力を向上させることを示しています。

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

この論文は、テキスト教師なしでスケーラブルかつ持続可能な話者検証を実現するため、Koopman 演子学習とインスタンス正規化を組み合わせて話者と音声内容のダイナミクスを効果的に分離する「Deep Koopman Speech Disentanglement Autoencoder (DKSD-AE)」を提案し、既存の最先端手法と同等以上の性能を少ないパラメータで達成することを示しています。

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

本論文は、話者属性・音声内容・意味的意味を捉える埋め込み表現を用いて大規模な野生データからターゲットドメインに最適なデータ subset を選別する手法を提案し、CTC ベースの Conformer モデルにおいて全データで学習した場合と比較して最大 36.8% の相対的 WER 改善を達成したことを報告しています。

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

本論文は、多言語・多プラットフォーム・多数の公人を含む大規模な実世界データセット「ML-ITW」を構築し、既存の音声ディープフェイク検出手法が実際の環境や多様な言語において性能が大幅に低下することを示すことで、その汎化能力の限界を浮き彫りにしています。

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD は、ガウス雑音、無音信号、時間シフトという 3 つの負のサンプルを対比して推論時のみで動作するトレーニング不要のデコーディングフレームワークであり、長文音声認識における幻覚や繰り返しを抑制し、単語誤り率を最大 24.3 ポイント削減すると同時にビームサーチより 48% 高速な生成を実現します。

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

本論文は、データ不足と忘却の課題に直面する太平洋先住民言語の音声認識において、低ランク適応(LoRA)などの手法を評価し、逐次学習における内部表現の漂移と安定性・可塑性のジレンマを明らかにするとともに、これらの言語に特化した堅牢な適応戦略の必要性を強調する実証研究である。

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

本論文は、事前学習済み LLM 音声合成モデルを弱時間整合データで適応させ、限定的な未来テキストに基づいて内容境界で早期停止を学習するプロソディ境界認識型ポストトレーニング戦略とスライディングウィンドウ推論を提案し、ストリーミングテキスト入力における不自然なプロソディと長文生成の崩壊を解決し、CosyVoice 型ベースラインを短・長文両面で上回る性能を実現したものである。

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

本論文は、多様なデバイスや環境、質問意図に対応するため、音声エンコーダと言語生成モデルを条件付きで専門的に切り替える階層的な専門化メカニズムを導入した呼吸音質問応答システム「RAMoEA-QA」を提案し、既存モデルを上回る精度と汎化性能を達成したことを報告しています。

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

この論文は、LLM ベースの音声認識システムをテキストデータのみで新規ドメインに適応させる際、従来のファインチューニングでは生じる音声とテキストのモダリティ間の整合性の崩壊を防ぐため、ノイズを含むテキストからのクリーンな転写の復元という「テキスト去雑音」タスクとして適応プロセスを再定義する軽量な手法を提案し、既存の最良手法を凌ぐ性能向上を実現したことを報告しています。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess