[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic
本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。
163 件の論文
本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。
本論文は、フローベースの動画から音声生成モデル向けに、人間の嗜好に合致した大規模なペアデータ生成パイプラインとカリキュラム学習を備えた Direct Preference Optimization(DPO)フレームワーク「V2A-DPO」を提案し、VGGSound ベンチマークにおいて既存の手法や DDPO 最適化モデルを上回る最先端の性能を達成したことを報告しています。
本論文は、音声と映像のフレームレート不一致を解決し、時間的整合性を保つために、 Temporally-aligned Rotary Position Embeddings (TaRoPE) と Cross-Temporal Matching (CTM) 損失を組み込んだトランスフォーマーベースのマルチモーダル自己注意ネットワークを提案し、CREMA-D および RAVDESS データセットにおける感情認識精度の向上を実証しています。
本論文は、非ストリーミングとストリーミングの両方の音声認識機能を単一のアーキテクチャで統合し、追加の遅延なしに高精度なストリーミング認識を実現する新しい LLM ベースのフレームワーク「Uni-ASR」を提案するものである。
ハンチントン病の音声認識(ASR)において、高品質な臨床コーパスを用いた体系的な研究により、Parakeet-TDT アーキテクチャの優位性を示し、生体マーカーに基づく補助教師信号を用いることで誤り率を 6.99% から 4.95% まで改善する手法を提案し、コードとモデルをオープンソース化しました。
この論文は、テキストで訓練された大規模言語モデル(LLM)を音声タスクに応用して部分的に改ざんされた音声内の偽造単語を特定する手法を提案し、AV-Deepfake1M および PartialEdit での実験により、モデルが学習データ特有の編集パターンに依存していることが示されたものの、未見の編集スタイルへの汎化性が課題であることを明らかにしています。
南アフリカとウガンダのコミュニティ医療センターで収集された結核患者の咳音データを用いた研究において、XLS-R の最初の 3 層のみを活用した事前学習済みトランスフォーマーモデルが、咳の開始・終了点の自動検出およびその後の結核分類タスクにおいて、既存のモデルやベースラインを凌駕する高い精度と計算効率を実現し、スマートフォンを用いた大規模なスクリーニングツールの実用化可能性を示しました。
この論文は、音声生体認証における性差による性能格差を解消するため、デモグラフィックなショートカット学習と特徴の絡み合いという 2 つの課題に対処し、リスクの均一化と解釈可能な特徴ルーティングを行う公平性意識型のリスクゲートフレームワーク「Fair-Gate」を提案するものである。
本論文は、限られたラベル付きデータ(2 万サンプル)と未ラベル音声を活用した継続的事前学習(CPT)手法により、スワヒリ語音声認識(ASR)の単語誤り率を 3.24% まで低減し、既存の最優秀学術システムを大幅に上回る性能を達成したことを報告しています。
本論文は、リアルワールド環境における音声・視覚信号の信頼性が相互作用の段階によって変動する課題に対処するため、各段階でモダリティごとの信頼性を推定・較正し、適応的に融合を行う「SAGE」と呼ばれるフレームワークを提案し、Aff-Wild2 ベンチマークにおいて既存手法を上回る連続的な感情推定性能を実証したものである。
この論文は、主観的評価に依存していたアニメ声の客観的評価の課題を解決するため、ペアワイズ比較に基づく「AnimeScore」フレームワークを提案し、その有効性と音声生成モデルの最適化への応用可能性を実証したものです。
本論文は、複素数演算をネイティブに活用して複素スペクトログラムの構造を捉え、位相量子化とブロック行列計算を導入した複素数値ニューラルボコーダ「ComVo」を提案し、合成音質の向上と学習時間の短縮を実現したことを報告しています。
SEMamba++ は、周波数特性やマルチ解像度分析といった音声固有の性質をインダクティブバイアスとして取り入れた新しいアーキテクチャを提案し、計算効率を維持しながら複数のベースラインモデルを上回る性能を実現する汎用的な音声復元フレームワークです。
この論文は、自己教師あり学習モデルを活用して判別器を支援し、相対的ペアリングを導入することで、GAN 音声合成器の忠実度と汎化性能を向上させる新しい訓練手法「RAF(相対的敵対的フィードバック)」を提案し、その有効性を示したものです。
この論文は、FastSpeech2 構造に明示的な感情条件付けと因果推論に基づく対照的訓練(間接経路制約と対照的プロソディ制約)を導入し、言語内容から感情プロソディを分離することで、自然さを損なわずに制御可能な感情表現とプロソディ編集を実現する新しい音声合成フレームワークを提案しています。
この論文は、発声および無声の発話時の顔面・頸部の表面筋電図(sEMG)データを用いて感情を解読する手法を提案し、特に「フラストレーション」の識別において高い精度を達成し、発声の有無にかかわらず感情の筋活動パターンが持続することを示しています。
この論文は、大規模音声言語モデル(LALMs)が従来の内容中心の枠組みで無視しがちな副言語的キューへの意識を回復させるため、層ごとの分析に基づき「選択的層微調整」と「補助的な二重レベル分類ヘッド」を組み合わせた新しい微調整プロトコル「PE-FT」を提案し、その有効性を実証したものである。
この論文は、Shapley 値を用いて音声・視覚モダリティの寄与を定量化する「Dr. SHAP-AV」フレームワークを提案し、ノイズ環境下でもモデルが音声へのバイアスを維持しつつ視覚への依存を高めるという発見を通じて、AVSR におけるモダリティバランスの動的変化と診断手法の重要性を明らかにしています。
既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散(SGMD)」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。
本論文は、フィールドレコーディングによる環境音のリアルタイムな音楽パフォーマンスを可能にする統合システム「ExSampling」を提案し、深層学習を用いた自動的な音源の Ableton Live トラックへのマッピングにより、録音者・作曲家・演奏者の間での相互作用を実現するものである。