Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction
本論文は、目標話者抽出タスクにおいて、事前の仮定に依存せず学習ダイナミクスを可視化する「TSE-Datamap」フレームワークを導入し、SNR、話者数、重なり率、合成/実データ比率を統合的に制御するデータ駆動型のマルチファクター・カリキュラム学習戦略を提案し、特に複雑な多話者環境における性能向上を実現したものである。
163 件の論文
本論文は、目標話者抽出タスクにおいて、事前の仮定に依存せず学習ダイナミクスを可視化する「TSE-Datamap」フレームワークを導入し、SNR、話者数、重なり率、合成/実データ比率を統合的に制御するデータ駆動型のマルチファクター・カリキュラム学習戦略を提案し、特に複雑な多話者環境における性能向上を実現したものである。
本論文は、二重 ASR 検証に基づく厳密なキュレーションとダイナミックな仲裁戦略を採用した台湾語音声テキストデータセット「TW-Sound580K」を提案し、これによりローカライズされた音声言語モデルの性能を大幅に向上させることを実証しています。
本論文は、複数の音響事象が共存するポリフォニック音声における構成的推論能力を評価する新たなベンチマーク「PolyBench」を提案し、最先端の音声言語モデルがその分野で性能劣化を示すことを明らかにしています。
本論文は、推論時のモデル自信度に基づく従来の適応手法が抱える確認バイアスの問題を解決するため、因果介入の概念に基づきオーディオとテキストのセマンティック整合性を報酬として活用する強化学習フレームワーク「ASR-TRA」を提案し、雑音や多様なアクセントといった実世界の複雑な条件下でも高精度かつ低遅延な音声認識を実現する手法を提示しています。
本論文は、マルチモーダルな皮肉検出における推論の頑健性を向上させるため、教師モデルからの軌道と生成報酬モデルを用いた双トラック蒸留戦略と、GRPO による最適化を組み合わせたポストトレーニングフレームワーク「SarcasmMiner」を提案し、MUStARD++ ベンチマークで既存手法を上回る性能を達成したことを報告するものです。
本論文は、WavLM の表現を単一のコードブックに量子化・蒸留し、テキスト教師なしで自己回帰的に学習する単一ストリーム音声言語モデル「WavSLM」を提案し、複雑なアーキテクチャやテキスト事前学習なしに、セマンティックと音響情報を統合的にモデル化しながら高品質な音声生成を実現することを示しています。
本論文は、複数の劣化が同時に発生する現実世界の音声に対して、事前学習済みエンコーダから得られた劣化条件を時系列埋め込みに注入し、すべての残差ブロックを通じて伝播させる「SLICE」という手法を提案し、入力層でのみ条件を付与する既存手法や無条件モデルを上回る性能を達成することを示しています。
既存の音声透かし技術がニューラル音声コーデックによる意味的圧縮に脆弱であるという課題に対し、コーデックの潜在空間に透かしを埋め込むことで、未知のコーデックを含む高度な再合成攻撃にも耐性を持つゼロビット音声透かしフレームワーク「Latent-Mark」を提案する。
本論文は、パラメータの再学習を必要とせず、マルチ解像度のスパム検出器を用いた階層的デコーディング戦略により、離散音声合成の推論段階でトークンレベルのアーティファクトを抑制し、ゼロショット合成の品質と堅牢性を向上させる「MSpoof-TTS」という推論フレームワークを提案するものである。
本論文は、単一の高速モデルではなく、Deepgram、vLLM、ElevenLabs などの各コンポーネントをストリーミングでパイプライン化することにより、947ms という超低遅延を実現するエンタープライズ向けリアルタイム音声エージェントの構築手法を、完全なコードとともに解説する技術チュートリアルである。
この論文は、埋め込みデバイス向けに計算リソースを動的に調整可能にするため、不確実性を考慮した確率的枠組みを用いて所望の信号対雑音比に基づいて早期終了を可能にするニューラルネットワークアーキテクチャを提案し、音声分離・強化タスクにおいて再構成品質を損なうことなく大幅な計算節約を実現することを示しています。
本論文は、流体力学および拡散モデルに基づく音声強化において多段階推論のボトルネックを解消するため、有限区間での平均速度を学習し、知識蒸留や外部教師なしで単一ステップで高品質な生成を可能にする「MeanFlowSE」という新しい条件付き生成モデルを提案するものである。
本論文は、既存の手法が抱える遅延融合やスコア音源の曖昧さといった課題を解決するため、双方向ストリームエンコーダと記号スコアをデコーダのプロンプトとして活用するマルチモーダル・インターリーブ型トランスフォーマー「LadderSym」を提案し、音楽練習のエラー検出精度を大幅に向上させたことを報告するものです。
本研究は、多様な下流タスクで高い性能を発揮する最新の自己教師あり音声モデルが、自然な音声データの再構築学習を通じて脳活動と強く一致する表現を自然に獲得し、その結果としてモデルの性能向上と脳との類似性の高まりが強く相関することを示しました。
本論文は、マイクロコントローラ上の音声キーワード検出モデルの設計において、制約条件を満たす解を効率的に探索し、ベイズ最適化の収束性と実用性を向上させる「目的意識型代理モデル初期化(OASI)」手法を提案し、STM32 上でのハードウェア実証によりその有効性を示したものである。
この論文は、テキスト、歌詞、参照オーディオを組み合わせた複合的マルチモーダル指示(CMI)に対応する音楽生成モデルの評価ギャップを埋めるため、大規模な嗜好データセット、高品質な人間アノテーションコーパス、統一ベンチマーク、および効率的な報酬モデル(CMI-RM)を含む包括的なエコシステムを提案し、人間の評価との高い相関と推論時のスケーリング能力を実証しています。
この論文は、深層学習と骨格ベースの計測を組み合わせた自動フレームワーク「SMMA」を開発し、音声中の舌骨下筋の厚さを人間と同等の精度で測定することで、大規模な発話運動制御研究や摂食・嚥下障害の客観的評価を可能にしたことを報告しています。
本論文は、自動音声認識におけるアクセント間の性能格差のメカニズムを解明するため、Wav2Vec2-base の分析を通じてアクセント情報が低次元の早期層に集中していることを発見し、その空間を単純に除去するのではなくモデルの脆弱性や格差を診断するための重要なツールとして位置づける「ACES」という手法を提案しています。
本論文は、ICASSP 2025 ミュージックソース復元(MSR)チャレンジに向けた CP-JKU チームのシステムを提案し、3 段階のカリキュラム学習を用いた BandSplit-RoFormer による 8 音源分離と、HiFi++ GAN による楽器固有の波形復元という多段階アプローチを特徴としています。
本論文は、従来の拡散モデルやフローモデルに比べて計算コストとパラメータ数が大幅に削減され、NU-Wave 2 よりも優れた性能を示す音声超解像モデル「FastWave」を提案しています。