cs.SD 件の論文 | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

本論文は、Wav2Vec2 活性化行列のグラム行列に基づくテクスチャ共活性化構造を捉えた「Texture Resonance Retrieval (TRR)」を提案し、ギターのエフェクトプリセット検索タスクにおいて、既存手法や基線モデルと比較して物理 DSP パラメータの誤差を最小化し、聴覚評価でも有効性を示したことを報告するものです。

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

この論文は、エンジンの排気圧力パルスの物理的メカニズムにインダクティブバイアスを組み込んだ微分可能なパルス列合成モデル「PTR」を提案し、従来の調和音モデルと比較して高品質なエンジン音の再構成と物理パラメータの解釈可能性を実現したことを示しています。

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

本論文は、従来の評価指標の限界を克服し、音声信号に基づいて感情音声キャプションの細部を原子単位で検証する新しい評価フレームワーク「EmoSURA」と、それを用いたベンチマーク「SURABench」を提案し、人間による評価との高い相関を示した研究です。

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

この論文は、アクセシビリティ技術や産業用ノイズ監視のニーズに基づき、音声認識を超えた背景音の理解や雑音の局所化など多様な音声理解能力を評価する新しいベンチマーク「SCENEBench」を提案し、最先端の大型音声言語モデルの現状と課題を明らかにしたものである。

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答（AQA）ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

本論文は、AMP モジュールと新規の Multi-Envelope Discriminator を導入し、長尺音声生成における時間的整合性や周期性のモデル化を強化した GAN ベースのボコーダ「BemaGANv2」を提案し、各種識別器の組み合わせ戦略を客観的・主観的指標を用いて体系的に評価したものである。

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

本論文は、HVAC システムに組み込まれた圧力センサーのデータから複雑値コンフォーマーなどの技術を用いて明瞭な音声まで復元する「WaLi」という新たなプライバシー脅威を提示し、その有効性と対策を議論するものである。

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

本論文は、サブ・ナイキストサンプリングと低ビット解像度を意図的に採用することで消費電力を 3.31 倍削減しつつ、モバイルプラットフォーム上でリアルタイムに動作する広帯域音声再構成手法「SUBARU」を提案し、ノイズ環境下での高品質な音声強調を実現する実践的なアプローチを提示しています。

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

任意のサンプリングレートと可変長の信号に対応し、帯域分割アーキテクチャと周波数位置エンコーディングを統合した新しい基盤モデル「ECHO」を提案し、機械信号の異常検出や故障分類において最先端の性能を実現したことを報告する論文です。

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

この論文は、音声印象（VI）制御のための初の公開コーパス「LibriTTS-VI」を構築し、参照音声による印象の漏洩を軽減する新規手法（2 utterance による学習と参照不要制御）を提案することで、数値的な音声印象制御の精度を大幅に向上させたことを報告しています。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

本論文は、HuBERT 特徴量を活用した X-Codec-2.0 の潜在レートとサンプリング周波数を調整する簡易な改良により、マルチリンガル音声の効率と音質を向上させ、25Hz 帯域で最高性能を達成したことを報告しています。

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

この論文は、メカニズム的解釈性を用いて大規模音声言語モデル（LALMs）における「聴く」信号を特定し、推論時の活性化介入によって音声への依存度を高めることで、パラメータ更新なしにモデルの精度を最大 8.0 ポイント向上させる手法を提案しています。

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

本論文は、マルチモーダル大規模言語モデル（MLLM）を用いて人間を代替し、低リソース音声分類タスクにおいて高速かつ解釈可能な音声属性を適応的に発見する手法を提案し、従来の人間依存型アプローチや直接予測よりも高い性能と実用性を示したことを述べています。

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

この論文は、生産ラインのシステムレベル故障検出を目的とし、複数の運転条件や工場ノイズ下で収集された音声と振動のマルチモーダル信号を含むチェーンコンベア用データセットと、その公平な評価のための標準化されたプロトコルとベンチマークを提案するものである。

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

この論文は、ウェアラブル型音響センサー「SonicGuard」を用いて腸音を記録し、エネルギーベースの検出アルゴリズムと事前学習済み Audio Spectrogram Transformer モデルを組み合わせることで、臨床医の作業時間を約 70% 削減しつつ高い精度で腸音の自動セグメンテーションと分類を実現するシステムを提案しています。

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

この論文は、音声認識において話者の口元の動きだけでなく、話の場面や画面上のテキストといった豊富な視覚的文脈を「見て」推論するマルチモーダル推論手法（AV-CoT）を提案し、単一モダリティへの依存を軽減して文脈認識型音声認識の性能を飛躍的に向上させたことを報告しています。

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

この論文は、Vocos を基盤としたニューラルボコーダーと軽量なリファイナーを組み合わせて、8-48 kHz の任意のアップサンプリング比率に対応し、GPU および CPU 上で極めて高速なリアルタイム処理を実現する音声帯域幅拡張モデルを提案しています。

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← 前へ次へ →