LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
本論文は、数時間にわたる音声データを構造化されたイベント記録に変換し、SQL データベースから関連するイベントを検索して大規模言語モデルの回答を支援するハイブリッド型フレームワーク「LongAudio-RAG」を提案し、その精度向上とエッジ - クラウド環境での実用性を示したものである。
137 件の論文
本論文は、数時間にわたる音声データを構造化されたイベント記録に変換し、SQL データベースから関連するイベントを検索して大規模言語モデルの回答を支援するハイブリッド型フレームワーク「LongAudio-RAG」を提案し、その精度向上とエッジ - クラウド環境での実用性を示したものである。
DISPLACE-M チャレンジの Track 1(話者分離)において、TCG CREST チームは WavLM ベースのハイブリッド型エンドツーエンドシステム「Diarizen」と高度なクラスタリング手法を組み合わせることで、従来の SpeechBrain ベースラインを大幅に上回る性能(評価セットで DER 9.21%)を達成し、11 チーム中 6 位に入賞したことを報告しています。
この論文は、生産ラインのシステムレベル故障検出を目的とし、複数の運転条件や工場ノイズ下で収集された音声と振動のマルチモーダル信号を含むチェーンコンベア用データセットと、その公平な評価のための標準化されたプロトコルとベンチマークを提案するものである。
この論文は、ウェアラブル型音響センサー「SonicGuard」を用いて腸音を記録し、エネルギーベースの検出アルゴリズムと事前学習済み Audio Spectrogram Transformer モデルを組み合わせることで、臨床医の作業時間を約 70% 削減しつつ高い精度で腸音の自動セグメンテーションと分類を実現するシステムを提案しています。
自己教師あり音声モデルの言語カバレッジを 126 言語から 4,017 言語へ拡大することで、地理的接近性や表面的な類型論的類似性を超えて、パプア・オセアニア・オーストラリア諸語を含む太平洋マクロクラスターのような深層的な系統関係や長期的な言語接触の信号を捉えることが可能になることが示されました。
この論文は、音声認識において話者の口元の動きだけでなく、話の場面や画面上のテキストといった豊富な視覚的文脈を「見て」推論するマルチモーダル推論手法(AV-CoT)を提案し、単一モダリティへの依存を軽減して文脈認識型音声認識の性能を飛躍的に向上させたことを報告しています。
この論文は、Vocos を基盤としたニューラルボコーダーと軽量なリファイナーを組み合わせて、8-48 kHz の任意のアップサンプリング比率に対応し、GPU および CPU 上で極めて高速なリアルタイム処理を実現する音声帯域幅拡張モデルを提案しています。
この論文は、リアルワールド環境における音声強調モデルの軽量適応を実現するため、自己教師あり学習を用いて低ランクアダプターを少量のパラメータのみ更新するフレームワークを提案し、111 の環境で高い性能向上と安定した収束を実証したものである。
この論文は、パーキンソン病の音声検出におけるプライバシー保護と診断精度のトレードオフを評価し、kNN-VC による匿名化が STT-TTS に比べて話者識別性を保ちつつ病理情報を維持できることを示すことで、プライバシーを保護したままのパーキンソン病検出の実現可能性を証明しています。
この論文は、実録音からのピッチ適応スペクトル分析とパラメトリック合成を組み合わせた分析駆動型フレームワークを提案し、サンプル単位のRPMおよびトルク注釈を備えた大規模なエンジン音合成データセット「Procedural Engine Sounds Dataset」を構築・公開し、自動車音響設計やデータ駆動型合成研究を支援することを目的としています。
SoundWeaver は、セマンティックに類似したキャッシュ音声を活用して拡散モデルの推論ステップを動的にスキップするトレーニング不要のシステムであり、音声品質を維持しつつ遅延を最大 3 倍削減します。
この論文は、 whispered 音声と通常音声の両方向変換を可能にする双方向フレームワーク「WhispEar」を提案し、通常音声から擬似並列 whispered 音声を生成することでデータ拡張を実現し、大規模なバイリンガルコーパスとともに whisper 音声変換の性能を大幅に向上させたことを報告しています。
本論文は、マスクされたオーディオ・ビジュアル整合性学習と動的条件付きフローを組み合わせることで、動画のセマンティクスとリズムの両方に高度に同期した高品質な音声を生成する「FoleyFlow」を提案し、既存手法を上回る性能を実証したものです。
この論文は、双チャンネル会話音声の生成的事前学習を通じてラベルなしで会話ダイナミクスを学習し、自然なターン交代とツール呼び出しを両立させる「DualTurn」モデルを提案し、既存の手法を上回る性能を実証したものである。
この論文は、人間の感情表現の曖昧さを単一のラベルではなく分布として捉え、大規模オーディオ言語モデルの推論能力を向上させるための分布推論アプローチと構造化された思考連鎖指導を提案し、IEMOCAP や CREMA-D などのデータセットで複数の学習戦略において一貫した改善を実証した研究です。
この論文は、言語に依存するパラリンギスティック音声タスクにおけるクロスリンガル転移を体系的に定量化する「クロスリンガル転移行列(CLTM)」を導入し、HuBERT ベースのエンコーダを用いた実験を通じて、言語対やタスクごとに異なる転移パターンが存在することを明らかにしました。
この論文は、静止画と実音声から合成された視覚データを用いることで、ラベル付きマルチモーダルデータが存在しない言語においても、高品質な音声視覚認識システムを構築できることを示しています。
本論文は、言語的事前知識を必要とせず音声および視覚情報を学習する自己教師ありモデルの進展を通じて、乳児の言語獲得のメカニズムを説明し、現代の学習シミュレーションが実証研究とより密接に結びつきつつあることをレビューするものである。
この論文は、従来のトークン化手法では高ビット深度の音声処理が困難だった課題に対し、語彙サイズを一定に保つ「Trilobyte」というバイトレベルのトークン化方式を提案し、24 ビットフル解像度音声における実用的な損失なし圧縮を可能にしたことを報告しています。
最新の深層音声除去モデルは、聴覚的に隠れた敵対的ノイズによって無意味な出力に誘導される脆弱性があり、安全な実用化には対抗策の確立が不可欠であることが示されました。