How Contrastive Decoding Enhances Large Audio Language Models?

本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

この論文は、PASE の基盤を踏襲しつつ、乾いたターゲットによる微調整とフローマッチングモジュールの導入により、幻覚を抑制したままスタジオ品質の音声強化を実現する「StuPASE」を提案し、最先端の手法を上回る性能を実証したものである。

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

この論文は、エンジンの排気圧力パルスの物理的メカニズムにインダクティブバイアスを組み込んだ微分可能なパルス列合成モデル「PTR」を提案し、従来の調和音モデルと比較して高品質なエンジン音の再構成と物理パラメータの解釈可能性を実現したことを示しています。

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

この論文は、単一チャネル入力やカスケード型パイプラインの限界を克服し、空間エンコーダと方向性事前知識を統合したエンドツーエンドのマルチチャネルキーワードスポッティング枠組みを提案し、騒音環境における堅牢性とターゲット話者検出の性能向上を実証したものである。

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

この論文は、拡散モデルの逆過程における計算コストを削減するため、SGMSE+ などの条件付き拡散モデルを含む補間型確率微分方程式(iSDE)の定式化を確立し、わずか 10 回のニューラルネットワーク評価で音声復元タスクを高速に実行可能なソルバーを提案するものである。

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

本論文は、既存の画像-RIR データセットから視覚言語モデルを用いてラベルを付与し、事前学習済みのテキスト - オーディオモデルを微調整することで、テキストから現実的な部屋インパルス応答を生成する新たな手法を提案し、その有効性を聴取テストや音声認識タスクを通じて実証したものである。

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

この論文は、ワイヤレス音響センサーネットワークにおいて、既存の反復アルゴリズムよりも通信帯域幅を削減しつつ、中央集権システムと同等の最適性能を単一ステップで達成する新しい分散マルチチャネルウィーナーフィルタ(dMWF)を提案し、その最適性と実効性を証明したものである。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答(AQA)ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

本論文は、AMP モジュールと新規の Multi-Envelope Discriminator を導入し、長尺音声生成における時間的整合性や周期性のモデル化を強化した GAN ベースのボコーダ「BemaGANv2」を提案し、各種識別器の組み合わせ戦略を客観的・主観的指標を用いて体系的に評価したものである。

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

本論文は、サブ・ナイキストサンプリングと低ビット解像度を意図的に採用することで消費電力を 3.31 倍削減しつつ、モバイルプラットフォーム上でリアルタイムに動作する広帯域音声再構成手法「SUBARU」を提案し、ノイズ環境下での高品質な音声強調を実現する実践的なアプローチを提示しています。

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

この論文は、音声印象(VI)制御のための初の公開コーパス「LibriTTS-VI」を構築し、参照音声による印象の漏洩を軽減する新規手法(2 utterance による学習と参照不要制御)を提案することで、数値的な音声印象制御の精度を大幅に向上させたことを報告しています。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs