Trade-offs between structural richness and communication efficiency in music network representations
この論文は、ピアノ音楽のネットワーク表現において、単一特徴量による圧縮表現が学習容易な高い不確実性を示す一方で、多特徴量による豊かさは状態空間の拡大とモデル誤差の増大を招くという構造の豊かさと通信効率の間のトレードオフを明らかにし、聴衆の現実的な期待形成にどの表現が適しているかを論じています。
163 件の論文
この論文は、ピアノ音楽のネットワーク表現において、単一特徴量による圧縮表現が学習容易な高い不確実性を示す一方で、多特徴量による豊かさは状態空間の拡大とモデル誤差の増大を招くという構造の豊かさと通信効率の間のトレードオフを明らかにし、聴衆の現実的な期待形成にどの表現が適しているかを論じています。
この論文は、唇の動きを離散的な意味トークンに変換する軽量エンコーダと、マルチスケールのグローバル・ローカル注意機構を採用した分離器を組み合わせた「Dolphin」という効率的な音声・視覚分離手法を提案し、最先端モデルよりも分離精度を維持しつつパラメータ数や計算コストを大幅に削減したことを示しています。
この論文は、標準的な音声活動検出(VAD)モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。
この論文は、音声圧縮コーデックの選択において圧縮効率だけでなく聴覚的な知覚品質も考慮すべきであると主張し、複数のコーデックを圧縮性能、可視化、および PEAQ スコアを用いて評価することで、デジタル音声圧縮技術が知覚品質に与える影響を明らかにし、コーデック選定への示唆を提供しています。
既存のマルチモーダル感情認識手法が抱えるノイズ除去の難しさと支配的モーダリティによる不均衡の問題を解決するため、話者内・話者間の動的な感情依存関係を捉えるモダリティ別サブグラフと、注意分布の差分を用いてノイズを除去し補完性を高める適応的モダリティバランス機構を組み合わせた「AMB-DSGDN」を提案する論文です。
この論文は、Max 環境において効率的なリアルタイム非線形モード合成を実現し、弦・膜・板の物理パラメータを対話的に制御できる C++ 製オープンソース外部オブジェクト「nlm」を紹介するものである。
ID-LoRA は、テキスト、参照画像、短い音声クリップを統合して単一の生成パスで人物の視覚的特徴と声を同時に個人化し、視覚シーンに基づく音声同期やスタイル制御を実現する革新的なモデルです。
この論文は、拡散モデルの初期ノイズに秘密情報を埋め込む「PRoADS」という音声ステガノグラフィ手法を提案し、潜在空間最適化と後退オイラー法による逆転技術を用いて再構成誤差を最小化し、64kbps の MP3 圧縮下でも 0.15% という極めて低い誤り率を達成する堅牢なシステムを構築したことを述べています。
NasoVoce は、スマートグラスの鼻架に装着されたマイクと振動センサーを融合させることで、環境雑音に強くかつ低音量の発話も認識可能な、常時利用可能な静かな音声対話インターフェースの実現を提案する研究です。
この論文は、音声認識(ASR)、音声活動検出(VAD)、話者言語識別(LID)、句読点予測(Punc)の 4 つのモジュールを統合し、各タスクで最先端の性能を達成した産業級オールインワン自動音声認識システム「FireRedASR2S」を提案し、そのモデル重みとコードを公開していることを述べています。
本論文は、XR 環境における複雑な音源を分離し、音声と視覚の手がかりを統合したリアルタイムシステム「MoXaRt」を提案し、その有効性が聴解力の向上と認知的負荷の軽減を通じて実証されたことを示しています。
本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。
この論文は、LLM の意味的事前知識をエンコーダに蒸着させ、話者数を予測して動的にデコード経路を選択する「Talker-Count Routing」を導入することで、LLM をデコーダとして使用せずとも高速かつ高精度なマルチトークア ASR を実現する新しいフレームワークを提案しています。
この論文は、地理空間的意味文脈(GSC)を活用して音声イベントの曖昧さを解消する「Geo-AT」タスクを提案し、その評価基準となるデータセット「Geo-ATBench」と融合フレームワーク「GeoFusion-AT」を開発して、音声認識の精度向上と人間との整合性を検証したものです。
本論文は、混合音声から参照発話を用いて目標話者を抽出するタスクにおいて、従来の多ステップサンプリングの遅延や不安定な混合比予測を回避し、ヤコビアン・ベクトル積不要の条件付き AlphaFlow 手法を用いた単一ステップ生成モデル「AlphaFlowTSE」を提案し、話者類似性と ASR 性能の向上を実証したものである。
この論文は、音声合成技術の悪用リスクに対処するため、既存の音声偽造検出モデルの頑健性を未踏の生成手法や入力摂動に対して確率的に検証し、誤分類確率の理論的上界を導出する新しい枠組み「PV-VASM」を提案するものである。
本論文は、大規模音声言語モデルと人間が注釈したデータセットから導き出された推論を組み合わせた新たな音声ディープフェイク検出フレームワーク「HIR-SDD」を提案し、既存手法が抱える汎化性の欠如と解釈性の低さを解決するとともに、予測の根拠を人間が理解可能な形で提示することを可能にします。
この論文は、既存の音声対応大規模言語モデル(LLM)が話者識別能力に欠けることを示し、ECAPA-TDNN の話者埋め込みを LoRA 経由で注入する軽量な拡張手法を提案することで、自然言語インターフェースを維持しつつ話者検証タスクで専用システムに匹敵する性能を達成したことを報告しています。
本論文は、非 CUDA 環境である Ascend NPU プラットフォーム上で完全オープンソース化された音声理解基盤モデル「OSUM-Pangu」を提案し、OpenPangu-7B を基盤として音声知覚とユーザー意図認識を順次統合するトレーニング手法により、GPU ベースの主要モデルと同等の精度を達成したことを示しています。
この論文は、生音データを保存せずにウェアラブル機器を用いてリアルタイムで医療従事者の自然なコミュニケーション行動を分析するシステム「VoxCare」を提案し、そのデータから業務負荷やストレスを推測可能な行動指標を導き出すことで、医療提供の改善に貢献する手法を示しています。