Wave-like behaviour in (0,1) binary sequences
この論文は、量子理論の波動関数を確率測度の類似物として用いる「GenomeBits」モデルを拡張し、独立した (0,1) 二値系列から導かれる複素波動関数の実部と虚部のスペクトルが、塩基配列の位置に対して音波のような特徴的な振る舞いを示すことを明らかにした研究です。
163 件の論文
この論文は、量子理論の波動関数を確率測度の類似物として用いる「GenomeBits」モデルを拡張し、独立した (0,1) 二値系列から導かれる複素波動関数の実部と虚部のスペクトルが、塩基配列の位置に対して音波のような特徴的な振る舞いを示すことを明らかにした研究です。
頭頸部がん患者を対象とした本研究では、主観的評価と客観的音声測定の間に強い相関が確認され、特に知能性(明瞭度)の単一指標が化学放射線療法を受けた患者の臨床的モニタリングに十分である可能性が示唆されました。
本論文は、11 の自己教師あり音声モデルを対象とした大規模なプロービング分析を通じて、音声 SSL モデルが話者固有の情報をどのように符号化するかを解明し、最終層が純粋に言語内容のみを抽象化するとの通説に反して大規模モデルでは深層で話者アイデンティティが再獲得されること、また中間表現が専門的な話者埋め込みよりも動的な韻律を捉えることを発見しました。
この論文は、複数の人物や物体が同一の動画内で相互作用するシナリオに対応するため、各アイデンティティの空間的・時間的領域にテキスト、画像、音声などのマルチモーダル条件を厳密に紐付ける新しいフレームワーク「InterActHuman」を提案し、高品質な多概念人間アニメーション生成を実現するものです。
この論文は、話者と歌唱の両方に対応し、プロソディやスタイル、音色を柔軟に制御可能な音声生成のための統合フレームワーク「Vevo2」を提案し、その有効性と汎用性を示したものである。
本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。
本研究では、40 以上の言語にわたる 1 万 3,000 時間の多言語幼児中心音声データを用いて学習させた自己教師あり音声モデル「BabyHuBERT」を提案し、これにより既存の成人向けモデルを上回る性能で、自然な環境下での長編録音における話者(対象児と成人・他児など)の分類精度を大幅に向上させたことを示しています。
本論文は、Mamba-2 をバックボーンに採用した音声言語モデル「SAM」を提案し、パラメータ数を削減しながら大規模なトランスフォーマーモデルに匹敵する性能を達成するとともに、音声エンコーダーの微調整やトークン表現の最適化、指示追従学習の重要性など、SSM を音声言語モデルの基盤として実用的に設計するための指針を確立したものである。
この論文は、拡散モデルと音楽基盤モデルの機能を組み合わせて自動ドラム転写の性能を飛躍的に向上させ、新たな最先端記録を達成した「Noise-to-Notes」という生成フレームワークを提案しています。
本論文は、シュレーディンガー・ブリッジの学習パラダイムとMamba アーキテクチャを統合した「Schrödinger Bridge Mamba (SBM)」を提案し、音声のノイズ除去と残響除去を 1 ステップで高精度かつリアルタイムに実現する手法を示しています。
本論文は、SNR ベースのエネルギー適応ミックスアップとフレームレベル注意機構を統合し、多損失学習戦略を用いて感情の複雑さやデータ不足という課題を克服し、複数のデータセットで最先端の性能を達成する音声感情認識フレームワークを提案しています。
本論文は、実世界の多様な商用 API を反映した大規模な音声偽造データセット「MultiAPI Spoof」と、その生成元を特定するタスクを提案し、ローカル注意機構を強化した Nes2Net-LA モデルが未知の偽造条件においても高い検出性能と頑健性を示すことを実証したものです。
本論文は、現実世界の多様性(モダリティ、デバイス、質問タイプ)に耐性のある呼吸音の質問応答(QA)を評価するための包括的なベンチマーク「RA-QA」を提案し、既存の手法がこのような多様性においてどのように失敗するかを実証しています。
本論文は、リソース制約のあるヒアラブルデバイス上で、複数の同時音源を個別に抽出・調整可能なリアルタイムの細粒度サウンドスケープ制御システム「Aurchestra」を提案し、環境音をオーディオエンジニアがトラックをミックスするようにカスタマイズ可能にする技術を示しています。
本論文は、2009 年から 2025 年にかけての 393 名の国会議員による約 2,300 時間のヘブライ語音声データ「VoxKnesset」を公開し、15 年間の経年変化に伴う音声認識および話者認証の性能低下を実証的に分析するとともに、加齢に頑健な音声システム開発への基盤を提供するものである。
本論文は、事前学習済み音声埋め込みモデルを用いた学習不要な異常音検出において、従来の平均プーリングに代わる相対偏差プーリングやハイブリッドプーリングを提案し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。
本論文は、音声認識精度の向上を期待して行われる前処理としての音声強調(SAM-Audio)が、むしろ Whisper を用いたゼロショット ASR の性能を低下させるという、人間の知覚と機械認識の間に根本的な乖離があることを実証的に明らかにしています。
本論文は、DL スプリント 4.0 向けに WhisperX とピボット化された WhisperX を活用し、ベンガル語の長文音声認識と話者分離の課題に対し、音声チャンキング戦略とドメイン固有のセグメンテーションモデルの微調整を組み合わせることで、単語誤り率と話者分離誤り率を大幅に低減する手法を提案しています。
本論文は、大規模音声言語モデルのノイズ耐性を向上させるため、入力波形の分離と指示に応じたモダリティルータ、タスク適応型融合ブロックを備えた、モデルの再学習不要なプラグアンドプレイ型音声增强器「Focus-Then-Listen」を提案するものである。
本論文は、環境音のディープフェイク検出(ESDD)という未開拓分野を推進するため、97 チームが参加し 1,748 件の提出を記録した初の ESDD チャレンジの課題設定、データセット、評価手法、ベースラインシステム、および上位システムから得られた知見と将来の研究方向性をまとめたものである。