Acoustic and Semantic Modeling of Emotion in Spoken Language
この論文は、音声の音響情報と言語的意味情報を統合的にモデル化することで、感情認識の精度向上や話者特性を保持した感情スタイル転送を実現する手法を提案し、大規模な感情認識データセットの構築や対話システムにおける感情理解の高度化に貢献する研究成果を示しています。
132 件の論文
この論文は、音声の音響情報と言語的意味情報を統合的にモデル化することで、感情認識の精度向上や話者特性を保持した感情スタイル転送を実現する手法を提案し、大規模な感情認識データセットの構築や対話システムにおける感情理解の高度化に貢献する研究成果を示しています。
本論文は、音声トークンの統計的特性に特化した「SPAR-K」というスケジュール型交互早期終了フレームワークを提案し、推論コストを削減しつつ音声品質やタスク精度を維持する手法を提唱しています。
本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。
この論文は、PASE の基盤を踏襲しつつ、乾いたターゲットによる微調整とフローマッチングモジュールの導入により、幻覚を抑制したままスタジオ品質の音声強化を実現する「StuPASE」を提案し、最先端の手法を上回る性能を実証したものである。
この論文は、エンジンの排気圧力パルスの物理的メカニズムにインダクティブバイアスを組み込んだ微分可能なパルス列合成モデル「PTR」を提案し、従来の調和音モデルと比較して高品質なエンジン音の再構成と物理パラメータの解釈可能性を実現したことを示しています。
この論文は、単一チャネル入力やカスケード型パイプラインの限界を克服し、空間エンコーダと方向性事前知識を統合したエンドツーエンドのマルチチャネルキーワードスポッティング枠組みを提案し、騒音環境における堅牢性とターゲット話者検出の性能向上を実証したものである。
この論文は、拡散モデルの逆過程における計算コストを削減するため、SGMSE+ などの条件付き拡散モデルを含む補間型確率微分方程式(iSDE)の定式化を確立し、わずか 10 回のニューラルネットワーク評価で音声復元タスクを高速に実行可能なソルバーを提案するものである。
この論文は、大規模なオムニモデルに匹敵する音声理解・生成能力を、既存の視覚言語モデルのバックボーンを凍結したまま軽量モジュールで付与し、限られたデータで効率的に実現する「Speech-Omni-Lite」フレームワークを提案するものです。
本論文は、既存の画像-RIR データセットから視覚言語モデルを用いてラベルを付与し、事前学習済みのテキスト - オーディオモデルを微調整することで、テキストから現実的な部屋インパルス応答を生成する新たな手法を提案し、その有効性を聴取テストや音声認識タスクを通じて実証したものである。
本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。
この論文は、騒がしい屋内環境で録音された 80 人の話者による 1.5 時間の半自発的オランダ語音声データセット「DRES」を提案し、その評価を通じて現代の単一チャネル音声強調技術が ASR 性能向上に寄与しない可能性を示唆しています。
この論文は、ワイヤレス音響センサーネットワークにおいて、既存の反復アルゴリズムよりも通信帯域幅を削減しつつ、中央集権システムと同等の最適性能を単一ステップで達成する新しい分散マルチチャネルウィーナーフィルタ(dMWF)を提案し、その最適性と実効性を証明したものである。
本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。
この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。
DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答(AQA)ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。
本論文は、AMP モジュールと新規の Multi-Envelope Discriminator を導入し、長尺音声生成における時間的整合性や周期性のモデル化を強化した GAN ベースのボコーダ「BemaGANv2」を提案し、各種識別器の組み合わせ戦略を客観的・主観的指標を用いて体系的に評価したものである。
本論文は、HVAC システムに組み込まれた圧力センサーのデータから複雑値コンフォーマーなどの技術を用いて明瞭な音声まで復元する「WaLi」という新たなプライバシー脅威を提示し、その有効性と対策を議論するものである。
本論文は、サブ・ナイキストサンプリングと低ビット解像度を意図的に採用することで消費電力を 3.31 倍削減しつつ、モバイルプラットフォーム上でリアルタイムに動作する広帯域音声再構成手法「SUBARU」を提案し、ノイズ環境下での高品質な音声強調を実現する実践的なアプローチを提示しています。
任意のサンプリングレートと可変長の信号に対応し、帯域分割アーキテクチャと周波数位置エンコーディングを統合した新しい基盤モデル「ECHO」を提案し、機械信号の異常検出や故障分類において最先端の性能を実現したことを報告する論文です。
この論文は、音声印象(VI)制御のための初の公開コーパス「LibriTTS-VI」を構築し、参照音声による印象の漏洩を軽減する新規手法(2 utterance による学習と参照不要制御)を提案することで、数値的な音声印象制御の精度を大幅に向上させたことを報告しています。