Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
本論文は、現実世界のモダリティ欠損に強健な音声・映像話者抽出を実現するため、多様な登録情報の融合戦略を系統的に検討し、高欠損率での学習と顔画像・口唇特徴の組み合わせが性能と堅牢性を両立させることを示しています。
141 件の論文
本論文は、現実世界のモダリティ欠損に強健な音声・映像話者抽出を実現するため、多様な登録情報の融合戦略を系統的に検討し、高欠損率での学習と顔画像・口唇特徴の組み合わせが性能と堅牢性を両立させることを示しています。
この論文は、ピアノ音楽のネットワーク表現において、単一特徴量による圧縮表現が学習容易な高い不確実性を示す一方で、多特徴量による豊かさは状態空間の拡大とモデル誤差の増大を招くという構造の豊かさと通信効率の間のトレードオフを明らかにし、聴衆の現実的な期待形成にどの表現が適しているかを論じています。
この論文は、標準的な音声活動検出(VAD)モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。
この論文は、複数の視点からの映像情報を学習段階で統合し、単一視点でも多視点でも高い頑健性と性能を実現する新しい「マルチビューテンソル融合(MVTF)」フレームワークを提案するものです。
この論文は、Audio Large Language Model を校正段階と GRPO による強化学習段階で調整する新たな手法を提案し、音声の知覚次元の推論やアーティファクトの特定・分類能力を飛躍的に向上させ、多面的な音声品質評価において最先端の性能を達成したことを報告しています。
この論文は、Max 環境において効率的なリアルタイム非線形モード合成を実現し、弦・膜・板の物理パラメータを対話的に制御できる C++ 製オープンソース外部オブジェクト「nlm」を紹介するものである。
本論文は、マルチモーダル LLM における音声トークナイザーが意味情報よりも音韻情報を主に捉えていることを示す体系的な分析を通じて、次世代のトークナイザー設計への示唆を提供しています。
この論文は、音声認識(ASR)、音声活動検出(VAD)、話者言語識別(LID)、句読点予測(Punc)の 4 つのモジュールを統合し、各タスクで最先端の性能を達成した産業級オールインワン自動音声認識システム「FireRedASR2S」を提案し、そのモデル重みとコードを公開していることを述べています。
本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。
この論文は、地理空間的意味文脈(GSC)を活用して音声イベントの曖昧さを解消する「Geo-AT」タスクを提案し、その評価基準となるデータセット「Geo-ATBench」と融合フレームワーク「GeoFusion-AT」を開発して、音声認識の精度向上と人間との整合性を検証したものです。
この論文は、音声品質評価の標準指標である平均意見スコア(MOS)に存在する性差(男性聴衆が女性より高得点を付ける傾向)を初めて体系的に分析し、これを学習可能なパターンとして捉えた性認識モデルを提案することで、公平な音声評価の実現に貢献することを示しています。
LLM 音声合成モデルの感情・話者適応において、全パラメータの微調整に代わり、感情と話者情報の寄与を動的に分析して特定の 2 層のみを選択的に微調整する「CSP-FT」手法を提案し、学習速度の向上と忘却の抑制を実現しつつ、フル微調整と同等以上の忠実度と明瞭さを達成することを示しました。
この論文は、ロボットカートを用いて制御された軌跡上を移動するマイクと静止マイクからなる多様なアレイ配置で録音された、移動マイク録音と静止インパルス応答の両方を含む大規模な音響データベース「trajectoRIR」を紹介し、音源定位や音場再構成など多様なタスクへの応用を可能にするものである。
この論文は、話者の感情やトーンなどの副言語的要素を適切に扱える音声対話モデルの構築を目指し、新しい強化学習フレームワーク「ParaS2S」と高品質な評価ベンチマーク「ParaS2SBench」を提案し、既存のモデルや教師あり微細化(SFT)を上回る性能を達成したことを報告しています。
この論文は、ノイズを含む音声から意味情報を失わずに視覚情報を用いて特徴を洗練させるコンフォーマーベースのバトネック融合モジュールを備えたエンドツーエンドの音声増強フレームワークを提案し、LRS3 ベンチマークにおいて既存のマスクベース手法を上回る頑健な音声・視覚音声認識性能を実現することを示しています。
本論文は、音声 LLM が ASR と LLM のカスケード構成と本質的に同等の挙動を示すことを示し、多くの実用ケースでは高コストなカスケードに過ぎず、特に雑音条件下では性能が劣ることを実証しています。
本論文は、限られたアノテーションと強いドメインシフトに直面する乳児の泣き声分類において、MFCC、STFT、ピッチ特徴を統合した多ブランチ CNN と、LSTM よりも効率的な時間ダイナミクスモデルである Legendre Memory Unit(LMU)を用いたコンパクトなフレームワークを提案し、エントロピーゲート付きの校正された事後確率アンサンブル融合により、クロスドメイン評価での汎化性能とリアルタイム処理能力を向上させることを示しています。
この論文は、実際の部屋インパルス応答を用いてクリーン音声と残響音声を対で生成した新しいベンチマーク「Whisper-RIR-Mega」を提案し、5 つの Whisper モデルにおける残響が ASR の性能に及ぼす影響を評価したものです。
本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。
この論文は、音声基礎モデルにおけるアクセント情報を隠れ表現の解釈可能な部分空間として捉え、パラメータの更新なしに推論時にアクティベーションを直接操作する「アクティベーション・ステアリング」手法を提案し、8 つのアクセントで単語誤り率を改善することを示しています。