cs.SD 件の論文 | Gist.Science

Wave-like behaviour in (0,1) binary sequences

この論文は、量子理論の波動関数を確率測度の類似物として用いる「GenomeBits」モデルを拡張し、独立した (0,1) 二値系列から導かれる複素波動関数の実部と虚部のスペクトルが、塩基配列の位置に対して音波のような特徴的な振る舞いを示すことを明らかにした研究です。

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

頭頸部がん患者を対象とした本研究では、主観的評価と客観的音声測定の間に強い相関が確認され、特に知能性（明瞭度）の単一指標が化学放射線療法を受けた患者の臨床的モニタリングに十分である可能性が示唆されました。

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

本論文は、11 の自己教師あり音声モデルを対象とした大規模なプロービング分析を通じて、音声 SSL モデルが話者固有の情報をどのように符号化するかを解明し、最終層が純粋に言語内容のみを抽象化するとの通説に反して大規模モデルでは深層で話者アイデンティティが再獲得されること、また中間表現が専門的な話者埋め込みよりも動的な韻律を捉えることを発見しました。

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

この論文は、複数の人物や物体が同一の動画内で相互作用するシナリオに対応するため、各アイデンティティの空間的・時間的領域にテキスト、画像、音声などのマルチモーダル条件を厳密に紐付ける新しいフレームワーク「InterActHuman」を提案し、高品質な多概念人間アニメーション生成を実現するものです。

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

この論文は、話者と歌唱の両方に対応し、プロソディやスタイル、音色を柔軟に制御可能な音声生成のための統合フレームワーク「Vevo2」を提案し、その有効性と汎用性を示したものである。

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

本研究では、40 以上の言語にわたる 1 万 3,000 時間の多言語幼児中心音声データを用いて学習させた自己教師あり音声モデル「BabyHuBERT」を提案し、これにより既存の成人向けモデルを上回る性能で、自然な環境下での長編録音における話者（対象児と成人・他児など）の分類精度を大幅に向上させたことを示しています。

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

本論文は、Mamba-2 をバックボーンに採用した音声言語モデル「SAM」を提案し、パラメータ数を削減しながら大規模なトランスフォーマーモデルに匹敵する性能を達成するとともに、音声エンコーダーの微調整やトークン表現の最適化、指示追従学習の重要性など、SSM を音声言語モデルの基盤として実用的に設計するための指針を確立したものである。

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

この論文は、拡散モデルと音楽基盤モデルの機能を組み合わせて自動ドラム転写の性能を飛躍的に向上させ、新たな最先端記録を達成した「Noise-to-Notes」という生成フレームワークを提案しています。

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

本論文は、シュレーディンガー・ブリッジの学習パラダイムとMamba アーキテクチャを統合した「Schrödinger Bridge Mamba (SBM)」を提案し、音声のノイズ除去と残響除去を 1 ステップで高精度かつリアルタイムに実現する手法を示しています。

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

本論文は、SNR ベースのエネルギー適応ミックスアップとフレームレベル注意機構を統合し、多損失学習戦略を用いて感情の複雑さやデータ不足という課題を克服し、複数のデータセットで最先端の性能を達成する音声感情認識フレームワークを提案しています。

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

本論文は、実世界の多様な商用 API を反映した大規模な音声偽造データセット「MultiAPI Spoof」と、その生成元を特定するタスクを提案し、ローカル注意機構を強化した Nes2Net-LA モデルが未知の偽造条件においても高い検出性能と頑健性を示すことを実証したものです。

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

本論文は、現実世界の多様性（モダリティ、デバイス、質問タイプ）に耐性のある呼吸音の質問応答（QA）を評価するための包括的なベンチマーク「RA-QA」を提案し、既存の手法がこのような多様性においてどのように失敗するかを実証しています。

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

本論文は、リソース制約のあるヒアラブルデバイス上で、複数の同時音源を個別に抽出・調整可能なリアルタイムの細粒度サウンドスケープ制御システム「Aurchestra」を提案し、環境音をオーディオエンジニアがトラックをミックスするようにカスタマイズ可能にする技術を示しています。

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

本論文は、事前学習済み音声埋め込みモデルを用いた学習不要な異常音検出において、従来の平均プーリングに代わる相対偏差プーリングやハイブリッドプーリングを提案し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

本論文は、音声認識精度の向上を期待して行われる前処理としての音声強調（SAM-Audio）が、むしろ Whisper を用いたゼロショット ASR の性能を低下させるという、人間の知覚と機械認識の間に根本的な乖離があることを実証的に明らかにしています。

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

本論文は、DL スプリント 4.0 向けに WhisperX とピボット化された WhisperX を活用し、ベンガル語の長文音声認識と話者分離の課題に対し、音声チャンキング戦略とドメイン固有のセグメンテーションモデルの微調整を組み合わせることで、単語誤り率と話者分離誤り率を大幅に低減する手法を提案しています。

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

本論文は、大規模音声言語モデルのノイズ耐性を向上させるため、入力波形の分離と指示に応じたモダリティルータ、タスク適応型融合ブロックを備えた、モデルの再学習不要なプラグアンドプレイ型音声增强器「Focus-Then-Listen」を提案するものである。

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

本論文は、環境音のディープフェイク検出（ESDD）という未開拓分野を推進するため、97 チームが参加し 1,748 件の提出を記録した初の ESDD チャレンジの課題設定、データセット、評価手法、ベースラインシステム、および上位システムから得られた知見と将来の研究方向性をまとめたものである。

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← 前へ次へ →