cs.SD 件の論文 | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

この論文は、ピアノ音楽のネットワーク表現において、単一特徴量による圧縮表現が学習容易な高い不確実性を示す一方で、多特徴量による豊かさは状態空間の拡大とモデル誤差の増大を招くという構造の豊かさと通信効率の間のトレードオフを明らかにし、聴衆の現実的な期待形成にどの表現が適しているかを論じています。

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

この論文は、唇の動きを離散的な意味トークンに変換する軽量エンコーダと、マルチスケールのグローバル・ローカル注意機構を採用した分離器を組み合わせた「Dolphin」という効率的な音声・視覚分離手法を提案し、最先端モデルよりも分離精度を維持しつつパラメータ数や計算コストを大幅に削減したことを示しています。

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

この論文は、標準的な音声活動検出（VAD）モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

この論文は、音声圧縮コーデックの選択において圧縮効率だけでなく聴覚的な知覚品質も考慮すべきであると主張し、複数のコーデックを圧縮性能、可視化、および PEAQ スコアを用いて評価することで、デジタル音声圧縮技術が知覚品質に与える影響を明らかにし、コーデック選定への示唆を提供しています。

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

既存のマルチモーダル感情認識手法が抱えるノイズ除去の難しさと支配的モーダリティによる不均衡の問題を解決するため、話者内・話者間の動的な感情依存関係を捉えるモダリティ別サブグラフと、注意分布の差分を用いてノイズを除去し補完性を高める適応的モダリティバランス機構を組み合わせた「AMB-DSGDN」を提案する論文です。

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

この論文は、Max 環境において効率的なリアルタイム非線形モード合成を実現し、弦・膜・板の物理パラメータを対話的に制御できる C++ 製オープンソース外部オブジェクト「nlm」を紹介するものである。

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA は、テキスト、参照画像、短い音声クリップを統合して単一の生成パスで人物の視覚的特徴と声を同時に個人化し、視覚シーンに基づく音声同期やスタイル制御を実現する革新的なモデルです。

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

この論文は、拡散モデルの初期ノイズに秘密情報を埋め込む「PRoADS」という音声ステガノグラフィ手法を提案し、潜在空間最適化と後退オイラー法による逆転技術を用いて再構成誤差を最小化し、64kbps の MP3 圧縮下でも 0.15% という極めて低い誤り率を達成する堅牢なシステムを構築したことを述べています。

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

NasoVoce は、スマートグラスの鼻架に装着されたマイクと振動センサーを融合させることで、環境雑音に強くかつ低音量の発話も認識可能な、常時利用可能な静かな音声対話インターフェースの実現を提案する研究です。

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

この論文は、音声認識（ASR）、音声活動検出（VAD）、話者言語識別（LID）、句読点予測（Punc）の 4 つのモジュールを統合し、各タスクで最先端の性能を達成した産業級オールインワン自動音声認識システム「FireRedASR2S」を提案し、そのモデル重みとコードを公開していることを述べています。

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

本論文は、XR 環境における複雑な音源を分離し、音声と視覚の手がかりを統合したリアルタイムシステム「MoXaRt」を提案し、その有効性が聴解力の向上と認知的負荷の軽減を通じて実証されたことを示しています。

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

この論文は、LLM の意味的事前知識をエンコーダに蒸着させ、話者数を予測して動的にデコード経路を選択する「Talker-Count Routing」を導入することで、LLM をデコーダとして使用せずとも高速かつ高精度なマルチトークア ASR を実現する新しいフレームワークを提案しています。

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

この論文は、地理空間的意味文脈（GSC）を活用して音声イベントの曖昧さを解消する「Geo-AT」タスクを提案し、その評価基準となるデータセット「Geo-ATBench」と融合フレームワーク「GeoFusion-AT」を開発して、音声認識の精度向上と人間との整合性を検証したものです。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

本論文は、混合音声から参照発話を用いて目標話者を抽出するタスクにおいて、従来の多ステップサンプリングの遅延や不安定な混合比予測を回避し、ヤコビアン・ベクトル積不要の条件付き AlphaFlow 手法を用いた単一ステップ生成モデル「AlphaFlowTSE」を提案し、話者類似性と ASR 性能の向上を実証したものである。

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

この論文は、音声合成技術の悪用リスクに対処するため、既存の音声偽造検出モデルの頑健性を未踏の生成手法や入力摂動に対して確率的に検証し、誤分類確率の理論的上界を導出する新しい枠組み「PV-VASM」を提案するものである。

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

本論文は、大規模音声言語モデルと人間が注釈したデータセットから導き出された推論を組み合わせた新たな音声ディープフェイク検出フレームワーク「HIR-SDD」を提案し、既存手法が抱える汎化性の欠如と解釈性の低さを解決するとともに、予測の根拠を人間が理解可能な形で提示することを可能にします。

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

この論文は、既存の音声対応大規模言語モデル（LLM）が話者識別能力に欠けることを示し、ECAPA-TDNN の話者埋め込みを LoRA 経由で注入する軽量な拡張手法を提案することで、自然言語インターフェースを維持しつつ話者検証タスクで専用システムに匹敵する性能を達成したことを報告しています。

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

本論文は、非 CUDA 環境である Ascend NPU プラットフォーム上で完全オープンソース化された音声理解基盤モデル「OSUM-Pangu」を提案し、OpenPangu-7B を基盤として音声知覚とユーザー意図認識を順次統合するトレーニング手法により、GPU ベースの主要モデルと同等の精度を達成したことを示しています。

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

この論文は、生音データを保存せずにウェアラブル機器を用いてリアルタイムで医療従事者の自然なコミュニケーション行動を分析するシステム「VoxCare」を提案し、そのデータから業務負荷やストレスを推測可能な行動指標を導き出すことで、医療提供の改善に貢献する手法を示しています。

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs

← 前へ次へ →