eess.AS 件の論文 | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

この論文は、音声の音響情報と言語的意味情報を統合的にモデル化することで、感情認識の精度向上や話者特性を保持した感情スタイル転送を実現する手法を提案し、大規模な感情認識データセットの構築や対話システムにおける感情理解の高度化に貢献する研究成果を示しています。

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

本論文は、音声トークンの統計的特性に特化した「SPAR-K」というスケジュール型交互早期終了フレームワークを提案し、推論コストを削減しつつ音声品質やタスク精度を維持する手法を提唱しています。

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

この論文は、PASE の基盤を踏襲しつつ、乾いたターゲットによる微調整とフローマッチングモジュールの導入により、幻覚を抑制したままスタジオ品質の音声強化を実現する「StuPASE」を提案し、最先端の手法を上回る性能を実証したものである。

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

この論文は、エンジンの排気圧力パルスの物理的メカニズムにインダクティブバイアスを組み込んだ微分可能なパルス列合成モデル「PTR」を提案し、従来の調和音モデルと比較して高品質なエンジン音の再構成と物理パラメータの解釈可能性を実現したことを示しています。

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

この論文は、単一チャネル入力やカスケード型パイプラインの限界を克服し、空間エンコーダと方向性事前知識を統合したエンドツーエンドのマルチチャネルキーワードスポッティング枠組みを提案し、騒音環境における堅牢性とターゲット話者検出の性能向上を実証したものである。

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

この論文は、拡散モデルの逆過程における計算コストを削減するため、SGMSE+ などの条件付き拡散モデルを含む補間型確率微分方程式（iSDE）の定式化を確立し、わずか 10 回のニューラルネットワーク評価で音声復元タスクを高速に実行可能なソルバーを提案するものである。

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

この論文は、大規模なオムニモデルに匹敵する音声理解・生成能力を、既存の視覚言語モデルのバックボーンを凍結したまま軽量モジュールで付与し、限られたデータで効率的に実現する「Speech-Omni-Lite」フレームワークを提案するものです。

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

本論文は、既存の画像-RIR データセットから視覚言語モデルを用いてラベルを付与し、事前学習済みのテキスト - オーディオモデルを微調整することで、テキストから現実的な部屋インパルス応答を生成する新たな手法を提案し、その有効性を聴取テストや音声認識タスクを通じて実証したものである。

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

この論文は、騒がしい屋内環境で録音された 80 人の話者による 1.5 時間の半自発的オランダ語音声データセット「DRES」を提案し、その評価を通じて現代の単一チャネル音声強調技術が ASR 性能向上に寄与しない可能性を示唆しています。

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

この論文は、ワイヤレス音響センサーネットワークにおいて、既存の反復アルゴリズムよりも通信帯域幅を削減しつつ、中央集権システムと同等の最適性能を単一ステップで達成する新しい分散マルチチャネルウィーナーフィルタ（dMWF）を提案し、その最適性と実効性を証明したものである。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答（AQA）ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

← 前へ次へ →

eess.AS