cs.SD 件の論文 | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

本論文は、目標話者抽出タスクにおいて、事前の仮定に依存せず学習ダイナミクスを可視化する「TSE-Datamap」フレームワークを導入し、SNR、話者数、重なり率、合成/実データ比率を統合的に制御するデータ駆動型のマルチファクター・カリキュラム学習戦略を提案し、特に複雑な多話者環境における性能向上を実現したものである。

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

本論文は、二重 ASR 検証に基づく厳密なキュレーションとダイナミックな仲裁戦略を採用した台湾語音声テキストデータセット「TW-Sound580K」を提案し、これによりローカライズされた音声言語モデルの性能を大幅に向上させることを実証しています。

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

本論文は、複数の音響事象が共存するポリフォニック音声における構成的推論能力を評価する新たなベンチマーク「PolyBench」を提案し、最先端の音声言語モデルがその分野で性能劣化を示すことを明らかにしています。

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

本論文は、推論時のモデル自信度に基づく従来の適応手法が抱える確認バイアスの問題を解決するため、因果介入の概念に基づきオーディオとテキストのセマンティック整合性を報酬として活用する強化学習フレームワーク「ASR-TRA」を提案し、雑音や多様なアクセントといった実世界の複雑な条件下でも高精度かつ低遅延な音声認識を実現する手法を提示しています。

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

本論文は、マルチモーダルな皮肉検出における推論の頑健性を向上させるため、教師モデルからの軌道と生成報酬モデルを用いた双トラック蒸留戦略と、GRPO による最適化を組み合わせたポストトレーニングフレームワーク「SarcasmMiner」を提案し、MUStARD++ ベンチマークで既存手法を上回る性能を達成したことを報告するものです。

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

本論文は、WavLM の表現を単一のコードブックに量子化・蒸留し、テキスト教師なしで自己回帰的に学習する単一ストリーム音声言語モデル「WavSLM」を提案し、複雑なアーキテクチャやテキスト事前学習なしに、セマンティックと音響情報を統合的にモデル化しながら高品質な音声生成を実現することを示しています。

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

本論文は、複数の劣化が同時に発生する現実世界の音声に対して、事前学習済みエンコーダから得られた劣化条件を時系列埋め込みに注入し、すべての残差ブロックを通じて伝播させる「SLICE」という手法を提案し、入力層でのみ条件を付与する既存手法や無条件モデルを上回る性能を達成することを示しています。

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

既存の音声透かし技術がニューラル音声コーデックによる意味的圧縮に脆弱であるという課題に対し、コーデックの潜在空間に透かしを埋め込むことで、未知のコーデックを含む高度な再合成攻撃にも耐性を持つゼロビット音声透かしフレームワーク「Latent-Mark」を提案する。

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

本論文は、パラメータの再学習を必要とせず、マルチ解像度のスパム検出器を用いた階層的デコーディング戦略により、離散音声合成の推論段階でトークンレベルのアーティファクトを抑制し、ゼロショット合成の品質と堅牢性を向上させる「MSpoof-TTS」という推論フレームワークを提案するものである。

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

本論文は、単一の高速モデルではなく、Deepgram、vLLM、ElevenLabs などの各コンポーネントをストリーミングでパイプライン化することにより、947ms という超低遅延を実現するエンタープライズ向けリアルタイム音声エージェントの構築手法を、完全なコードとともに解説する技術チュートリアルである。

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

この論文は、埋め込みデバイス向けに計算リソースを動的に調整可能にするため、不確実性を考慮した確率的枠組みを用いて所望の信号対雑音比に基づいて早期終了を可能にするニューラルネットワークアーキテクチャを提案し、音声分離・強化タスクにおいて再構成品質を損なうことなく大幅な計算節約を実現することを示しています。

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

本論文は、流体力学および拡散モデルに基づく音声強化において多段階推論のボトルネックを解消するため、有限区間での平均速度を学習し、知識蒸留や外部教師なしで単一ステップで高品質な生成を可能にする「MeanFlowSE」という新しい条件付き生成モデルを提案するものである。

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

本論文は、既存の手法が抱える遅延融合やスコア音源の曖昧さといった課題を解決するため、双方向ストリームエンコーダと記号スコアをデコーダのプロンプトとして活用するマルチモーダル・インターリーブ型トランスフォーマー「LadderSym」を提案し、音楽練習のエラー検出精度を大幅に向上させたことを報告するものです。

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

本研究は、多様な下流タスクで高い性能を発揮する最新の自己教師あり音声モデルが、自然な音声データの再構築学習を通じて脳活動と強く一致する表現を自然に獲得し、その結果としてモデルの性能向上と脳との類似性の高まりが強く相関することを示しました。

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

← 前へ次へ →

cs.SD