Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments
この論文は、リアルワールド環境における音声強調モデルの軽量適応を実現するため、自己教師あり学習を用いて低ランクアダプターを少量のパラメータのみ更新するフレームワークを提案し、111 の環境で高い性能向上と安定した収束を実証したものである。
159 件の論文
この論文は、リアルワールド環境における音声強調モデルの軽量適応を実現するため、自己教師あり学習を用いて低ランクアダプターを少量のパラメータのみ更新するフレームワークを提案し、111 の環境で高い性能向上と安定した収束を実証したものである。
この論文は、パーキンソン病の音声検出におけるプライバシー保護と診断精度のトレードオフを評価し、kNN-VC による匿名化が STT-TTS に比べて話者識別性を保ちつつ病理情報を維持できることを示すことで、プライバシーを保護したままのパーキンソン病検出の実現可能性を証明しています。
この論文は、ゼロショット音声合成モデルから特定の話者アイデンティティを除去する「音声生成話者ポイズニング(SGSP)」という新たな課題を定義し、15 名までの話者に対してプライバシー保護とモデル有用性の両立を達成するフレームワークを提案しています。
ネパール語(ネワール語)の音声認識におけるリソース不足を解消するため、5.39 時間の手書き転写コーパス「Nwāchā Munā」を公開し、大規模多言語モデルに匹敵する性能を、近隣言語であるネパール語からの転移学習によって達成したことを報告する論文です。
この論文は、実録音からのピッチ適応スペクトル分析とパラメトリック合成を組み合わせた分析駆動型フレームワークを提案し、サンプル単位のRPMおよびトルク注釈を備えた大規模なエンジン音合成データセット「Procedural Engine Sounds Dataset」を構築・公開し、自動車音響設計やデータ駆動型合成研究を支援することを目的としています。
この論文は、音声からテキストへの変換と有害な音声コマンドの検出をリアルタイムかつ単一ステップで実行し、高い精度と低遅延を実現する軽量モデル「VoiceSHIELD-Small」を提案するものである。
SoundWeaver は、セマンティックに類似したキャッシュ音声を活用して拡散モデルの推論ステップを動的にスキップするトレーニング不要のシステムであり、音声品質を維持しつつ遅延を最大 3 倍削減します。
この論文は、ラベル付きターゲットデータなしでクロスドメインの一般化を向上させるため、Wav2Vec 2.0 埋め込みと統計的変換(変換、特徴選択、PCA、CORAL 整合)を組み合わせたモジュール式のパイプラインを提案し、音声ディープフェイク検出におけるドメイン適応の有効性を示しています。
本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。
この論文は、 whispered 音声と通常音声の両方向変換を可能にする双方向フレームワーク「WhispEar」を提案し、通常音声から擬似並列 whispered 音声を生成することでデータ拡張を実現し、大規模なバイリンガルコーパスとともに whisper 音声変換の性能を大幅に向上させたことを報告しています。
この論文は、非公開データや不統一なプロトコルに依存していた既存の課題を解決するため、公開データセットを用いた統合ベンチマーク「PathBench」を提案し、言語学者と機械学習専門家の異なるアプローチを反映した 3 つのプロトコルで各種手法を評価し、その中で参照不要な手法として最高相関を達成した「Dual-ASR Articulatory Precision (DArtP)」を導入したことを報告しています。
本論文は、マスクされたオーディオ・ビジュアル整合性学習と動的条件付きフローを組み合わせることで、動画のセマンティクスとリズムの両方に高度に同期した高品質な音声を生成する「FoleyFlow」を提案し、既存手法を上回る性能を実証したものです。
本論文は、MFCC に依存する従来の手法よりも複雑な南アジアの環境音を高精度に分類できる、スペクトログラムと畳み込みニューラルネットワーク(CNN)を用いた新しいマルチラベル分類手法を提案し、SAS-KIIT および UrbanSound8K データセットでの検証によりその有効性を実証したものである。
この論文は、音声モデルの低ビット量子化において従来の手法では見落とされていた大きな活性化範囲の問題を、進化戦略に基づく二段階最適化手法「ESC」で解決し、INT8 量子化で完全な性能を維持しつつ、INT4 量子化でもほぼ損失のない性能達成を実現したことを示しています。
この論文は、双チャンネル会話音声の生成的事前学習を通じてラベルなしで会話ダイナミクスを学習し、自然なターン交代とツール呼び出しを両立させる「DualTurn」モデルを提案し、既存の手法を上回る性能を実証したものである。
この論文は、人間の感情表現の曖昧さを単一のラベルではなく分布として捉え、大規模オーディオ言語モデルの推論能力を向上させるための分布推論アプローチと構造化された思考連鎖指導を提案し、IEMOCAP や CREMA-D などのデータセットで複数の学習戦略において一貫した改善を実証した研究です。
本論文は、古典的な範囲・零空間分解理論とニューラルネットワークを統合し、軽量かつスケーラブルな推論を可能にしながら最先端の性能を実現する新しい時間周波数領域のニューラルボコーダ「RNDVoC」を提案するものである。
この論文は、従来のトークン化手法では高ビット深度の音声処理が困難だった課題に対し、語彙サイズを一定に保つ「Trilobyte」というバイトレベルのトークン化方式を提案し、24 ビットフル解像度音声における実用的な損失なし圧縮を可能にしたことを報告しています。
最新の深層音声除去モデルは、聴覚的に隠れた敵対的ノイズによって無意味な出力に誘導される脆弱性があり、安全な実用化には対抗策の確立が不可欠であることが示されました。
本論文は、現実世界のモダリティ欠損に強健な音声・映像話者抽出を実現するため、多様な登録情報の融合戦略を系統的に検討し、高欠損率での学習と顔画像・口唇特徴の組み合わせが性能と堅牢性を両立させることを示しています。