LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

本論文は、数時間にわたる音声データを構造化されたイベント記録に変換し、SQL データベースから関連するイベントを検索して大規模言語モデルの回答を支援するハイブリッド型フレームワーク「LongAudio-RAG」を提案し、その精度向上とエッジ - クラウド環境での実用性を示したものである。

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

DISPLACE-M チャレンジの Track 1(話者分離)において、TCG CREST チームは WavLM ベースのハイブリッド型エンドツーエンドシステム「Diarizen」と高度なクラスタリング手法を組み合わせることで、従来の SpeechBrain ベースラインを大幅に上回る性能(評価セットで DER 9.21%)を達成し、11 チーム中 6 位に入賞したことを報告しています。

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

この論文は、生産ラインのシステムレベル故障検出を目的とし、複数の運転条件や工場ノイズ下で収集された音声と振動のマルチモーダル信号を含むチェーンコンベア用データセットと、その公平な評価のための標準化されたプロトコルとベンチマークを提案するものである。

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

この論文は、ウェアラブル型音響センサー「SonicGuard」を用いて腸音を記録し、エネルギーベースの検出アルゴリズムと事前学習済み Audio Spectrogram Transformer モデルを組み合わせることで、臨床医の作業時間を約 70% 削減しつつ高い精度で腸音の自動セグメンテーションと分類を実現するシステムを提案しています。

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

自己教師あり音声モデルの言語カバレッジを 126 言語から 4,017 言語へ拡大することで、地理的接近性や表面的な類型論的類似性を超えて、パプア・オセアニア・オーストラリア諸語を含む太平洋マクロクラスターのような深層的な系統関係や長期的な言語接触の信号を捉えることが可能になることが示されました。

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

この論文は、音声認識において話者の口元の動きだけでなく、話の場面や画面上のテキストといった豊富な視覚的文脈を「見て」推論するマルチモーダル推論手法(AV-CoT)を提案し、単一モダリティへの依存を軽減して文脈認識型音声認識の性能を飛躍的に向上させたことを報告しています。

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

この論文は、パーキンソン病の音声検出におけるプライバシー保護と診断精度のトレードオフを評価し、kNN-VC による匿名化が STT-TTS に比べて話者識別性を保ちつつ病理情報を維持できることを示すことで、プライバシーを保護したままのパーキンソン病検出の実現可能性を証明しています。

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

この論文は、実録音からのピッチ適応スペクトル分析とパラメトリック合成を組み合わせた分析駆動型フレームワークを提案し、サンプル単位のRPMおよびトルク注釈を備えた大規模なエンジン音合成データセット「Procedural Engine Sounds Dataset」を構築・公開し、自動車音響設計やデータ駆動型合成研究を支援することを目的としています。

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

この論文は、 whispered 音声と通常音声の両方向変換を可能にする双方向フレームワーク「WhispEar」を提案し、通常音声から擬似並列 whispered 音声を生成することでデータ拡張を実現し、大規模なバイリンガルコーパスとともに whisper 音声変換の性能を大幅に向上させたことを報告しています。

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

この論文は、人間の感情表現の曖昧さを単一のラベルではなく分布として捉え、大規模オーディオ言語モデルの推論能力を向上させるための分布推論アプローチと構造化された思考連鎖指導を提案し、IEMOCAP や CREMA-D などのデータセットで複数の学習戦略において一貫した改善を実証した研究です。

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

この論文は、言語に依存するパラリンギスティック音声タスクにおけるクロスリンガル転移を体系的に定量化する「クロスリンガル転移行列(CLTM)」を導入し、HuBERT ベースのエンコーダを用いた実験を通じて、言語対やタスクごとに異なる転移パターンが存在することを明らかにしました。

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

この論文は、従来のトークン化手法では高ビット深度の音声処理が困難だった課題に対し、語彙サイズを一定に保つ「Trilobyte」というバイトレベルのトークン化方式を提案し、24 ビットフル解像度音声における実用的な損失なし圧縮を可能にしたことを報告しています。

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG