RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity
本論文は、現実世界の多様性(モダリティ、デバイス、質問タイプ)に耐性のある呼吸音の質問応答(QA)を評価するための包括的なベンチマーク「RA-QA」を提案し、既存の手法がこのような多様性においてどのように失敗するかを実証しています。
141 件の論文
本論文は、現実世界の多様性(モダリティ、デバイス、質問タイプ)に耐性のある呼吸音の質問応答(QA)を評価するための包括的なベンチマーク「RA-QA」を提案し、既存の手法がこのような多様性においてどのように失敗するかを実証しています。
本論文は、リソース制約のあるヒアラブルデバイス上で、複数の同時音源を個別に抽出・調整可能なリアルタイムの細粒度サウンドスケープ制御システム「Aurchestra」を提案し、環境音をオーディオエンジニアがトラックをミックスするようにカスタマイズ可能にする技術を示しています。
本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。
本論文は、医療従事者と患者の自然で雑音の多い対話を対象とした音声処理ベンチマーク「DISPLACE-M」のフェーズ 1 評価として、データセット、4 つのタスク、およびベースラインシステムの概要と評価結果を報告するものである。
本論文は、ドイツの 9 医療機関で収集され、アルツハイマー型認知症の非侵襲的かつスケーラブルな検出を可能にする、音声・言語分析用の初の公開ドイツ語マルチセンターデータセット「PARLO Dementia Corpus」を紹介し、その臨床的妥当性と自動評価の可能性を実証しています。
本論文は、事前学習済み音声埋め込みモデルを用いた学習不要な異常音検出において、従来の平均プーリングに代わる相対偏差プーリングやハイブリッドプーリングを提案し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。
この論文は、発話生成における脳、筋肉、および構音器官の動きを同時に捉えるため、リアルタイム MRI、EEG、表面筋電図の同時取得と、それらの相互干渉を抑制する新しいアーチファクト除去パイプラインを提案するものである。
この論文は、深層学習モデルの「ブラックボックス」性や計算コストを克服し、物理的な解釈可能性と極めて低い計算負荷を実現するトレーニング不要のコンパクトな音響パラメータセットを提案し、音声の音色属性検出タスクにおいて従来の特徴量や教師あり深層学習埋め込みを上回る性能を達成したことを報告しています。
本論文は、複数の音響事象が共存するポリフォニック音声における構成的推論能力を評価する新たなベンチマーク「PolyBench」を提案し、最先端の音声言語モデルがその分野で性能劣化を示すことを明らかにしています。
著者らは、5 言語にわたる 50 万件以上の幼児発話データ「TinyVox」を構築し、多言語の長時間録音による事前学習と文脈情報の活用によって幼児の音素認識を可能にした「BabAR」を開発し、その自動測定値が既存の発達指標と一致することを示すことで、大規模な幼児発話研究への実用性を確立しました。
この論文は、音声認識モデルから抽出した口元の動きを注意機構を備えたニューラルビームフォーマに統合し、低 SNR 環境や動的な話者を含む複雑な状況における音声強調性能とロバスト性を向上させる新しい「視覚情報に基づくニューラルビームフォーマ(VI-NBFNet)」を提案し、その有効性を実証したものです。
この論文は、11 種類のモデル統合アルゴリズムを 10 のポルトガル語ドメインで評価し、特異値ブースティングを導入した新手法 BoostedTSV-M を提案することで、フルファインチューニングを上回る性能と分布外汎化能力を単一モデルで実現する ASR におけるモデル統合の可能性と限界を明らかにしています。
本論文は、パラメータの再学習を必要とせず、マルチ解像度のスパム検出器を用いた階層的デコーディング戦略により、離散音声合成の推論段階でトークンレベルのアーティファクトを抑制し、ゼロショット合成の品質と堅牢性を向上させる「MSpoof-TTS」という推論フレームワークを提案するものである。
この論文は、埋め込みデバイス向けに計算リソースを動的に調整可能にするため、不確実性を考慮した確率的枠組みを用いて所望の信号対雑音比に基づいて早期終了を可能にするニューラルネットワークアーキテクチャを提案し、音声分離・強化タスクにおいて再構成品質を損なうことなく大幅な計算節約を実現することを示しています。
本論文は、既存の手法が抱える遅延融合やスコア音源の曖昧さといった課題を解決するため、双方向ストリームエンコーダと記号スコアをデコーダのプロンプトとして活用するマルチモーダル・インターリーブ型トランスフォーマー「LadderSym」を提案し、音楽練習のエラー検出精度を大幅に向上させたことを報告するものです。
この論文は、テキスト、歌詞、参照オーディオを組み合わせた複合的マルチモーダル指示(CMI)に対応する音楽生成モデルの評価ギャップを埋めるため、大規模な嗜好データセット、高品質な人間アノテーションコーパス、統一ベンチマーク、および効率的な報酬モデル(CMI-RM)を含む包括的なエコシステムを提案し、人間の評価との高い相関と推論時のスケーリング能力を実証しています。
この論文は、脳波(EEG)から自然言語を復号化する際に生じる意味的バイアスや信号軽視、そして BLEU スコアの罠といった課題に対処するため、感情やトピックなどの decoupled な意味目標と、信号に基づく厳密な注意機構を統合した新たなフレームワーク「SemKey」を提案し、従来の評価指標を超えた堅牢な性能向上を実証したものである。
この論文は、深層学習と骨格ベースの計測を組み合わせた自動フレームワーク「SMMA」を開発し、音声中の舌骨下筋の厚さを人間と同等の精度で測定することで、大規模な発話運動制御研究や摂食・嚥下障害の客観的評価を可能にしたことを報告しています。
本論文は、自動音声認識におけるアクセント間の性能格差のメカニズムを解明するため、Wav2Vec2-base の分析を通じてアクセント情報が低次元の早期層に集中していることを発見し、その空間を単純に除去するのではなくモデルの脆弱性や格差を診断するための重要なツールとして位置づける「ACES」という手法を提案しています。
本論文は、ICASSP 2025 ミュージックソース復元(MSR)チャレンジに向けた CP-JKU チームのシステムを提案し、3 段階のカリキュラム学習を用いた BandSplit-RoFormer による 8 音源分離と、HiFi++ GAN による楽器固有の波形復元という多段階アプローチを特徴としています。