ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance
この論文は、音声アシスタントのキーワード spotting における環境ノイズとクラス不均衡の問題を、ラベルなしテストデータのみで解決し、エントロピー最小化のバイアスを緩和する新しいテスト時適応手法「ImKWS」を提案するものです。
141 件の論文
この論文は、音声アシスタントのキーワード spotting における環境ノイズとクラス不均衡の問題を、ラベルなしテストデータのみで解決し、エントロピー最小化のバイアスを緩和する新しいテスト時適応手法「ImKWS」を提案するものです。
本論文は、自己教師あり表現再構成損失(SSRR)を導入することで、低遅延のストリーミング型ニューラルオーディオコーデックにおいて、高知覚性を実現しつつ単一 GPU での効率的な学習を可能にする「JHCodec」を提案し、最先端の性能を達成したことを示しています。
この論文は、ゼロショット音声合成モデルの推論時にアクティベーションを制御する「アクティベーション・ステアリング」手法を提案し、事前学習なしで参照話者のアクセントを除去しつつ声質(ティンバー)を維持した自然な音声生成を実現するものである。
この論文は、ストリーミング音声の話者匿名化において感情を保持しつつ、推論遅延の増加なしに 2 時間未満の微調整で実現する「StreamVoiceAnon+」を提案し、VoicePrivacy 2024 プロトコルで感情保持率を大幅に向上させたことを報告しています。
Whisper-CD は、ガウス雑音、無音信号、時間シフトという 3 つの負のサンプルを対比して推論時のみで動作するトレーニング不要のデコーディングフレームワークであり、長文音声認識における幻覚や繰り返しを抑制し、単語誤り率を最大 24.3 ポイント削減すると同時にビームサーチより 48% 高速な生成を実現します。
本論文は、データ不足と忘却の課題に直面する太平洋先住民言語の音声認識において、低ランク適応(LoRA)などの手法を評価し、逐次学習における内部表現の漂移と安定性・可塑性のジレンマを明らかにするとともに、これらの言語に特化した堅牢な適応戦略の必要性を強調する実証研究である。
フィンランド語、フランス語、スロバキア語の3言語を用いた研究により、自閉症児と非自閉症児の音声分類において、言語固有の特性と普遍的な手がかりの両方が存在し、言語に依存しないロバストな分類には言語を考慮したモデル化と記録条件の均質化が必要であることが示されました。
この論文は、フィンランド語、フランス語、スロバキア語の多言語コーパスを用いた分析により、自閉症児の韻律がピッチだけでなく、強度の変動や声質(息混じり感の低さなど)にも言語を超えた特徴的なパターンを示すことを明らかにし、欠陥モデルではなく複雑で独自の音声プロファイルとして捉えるべきであると結論付けています。
この論文は、医師と患者の重なり合うヒンディー語・英語コードスイッチング会話から医療状態を抽出する課題に対し、重なり話者分離(EEND-VC)とドメイン特化型 ASR、LLM による誤り修正を組み合わせるオープンソースのカスケードシステムを提案し、DISPLACE-M チャレンジで 1 位を獲得したことを報告しています。
この論文は、警察の身体装着カメラ映像を分析する AI 開発において、多様なステークホルダーの視点を統合し、民主的な統治を強化するための「コミュニティインフォームド」なアプローチを提案し、ロサンゼルス警察の交通違反取り締まりに関する研究プロジェクトを通じてその実践を説明するものである。
この論文は、音声・音楽・環境音を含むオーディオ中心タスクにおける音声言語モデル(ALM)のアーキテクチャ、学習目的、評価、課題および将来の展望を包括的に整理・分析した、初の体系的な調査レビューを提供するものである。
この論文は、LLM ベースの音声認識システムをテキストデータのみで新規ドメインに適応させる際、従来のファインチューニングでは生じる音声とテキストのモダリティ間の整合性の崩壊を防ぐため、ノイズを含むテキストからのクリーンな転写の復元という「テキスト去雑音」タスクとして適応プロセスを再定義する軽量な手法を提案し、既存の最良手法を凌ぐ性能向上を実現したことを報告しています。
本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。
本論文は、フローベースの動画から音声生成モデル向けに、人間の嗜好に合致した大規模なペアデータ生成パイプラインとカリキュラム学習を備えた Direct Preference Optimization(DPO)フレームワーク「V2A-DPO」を提案し、VGGSound ベンチマークにおいて既存の手法や DDPO 最適化モデルを上回る最先端の性能を達成したことを報告しています。
この論文は、テキストで訓練された大規模言語モデル(LLM)を音声タスクに応用して部分的に改ざんされた音声内の偽造単語を特定する手法を提案し、AV-Deepfake1M および PartialEdit での実験により、モデルが学習データ特有の編集パターンに依存していることが示されたものの、未見の編集スタイルへの汎化性が課題であることを明らかにしています。
南アフリカとウガンダのコミュニティ医療センターで収集された結核患者の咳音データを用いた研究において、XLS-R の最初の 3 層のみを活用した事前学習済みトランスフォーマーモデルが、咳の開始・終了点の自動検出およびその後の結核分類タスクにおいて、既存のモデルやベースラインを凌駕する高い精度と計算効率を実現し、スマートフォンを用いた大規模なスクリーニングツールの実用化可能性を示しました。
この論文は、CTC エンコーダーをドラフトモデルとして活用する自己スペキュレイティブデコーディング手法を提案し、音声認識タスクにおいて推論速度を大幅に向上させながら、同時に誤り率を低減させることを実証しています。
この論文は、音声生体認証における性差による性能格差を解消するため、デモグラフィックなショートカット学習と特徴の絡み合いという 2 つの課題に対処し、リスクの均一化と解釈可能な特徴ルーティングを行う公平性意識型のリスクゲートフレームワーク「Fair-Gate」を提案するものである。
本論文は、限られたラベル付きデータ(2 万サンプル)と未ラベル音声を活用した継続的事前学習(CPT)手法により、スワヒリ語音声認識(ASR)の単語誤り率を 3.24% まで低減し、既存の最優秀学術システムを大幅に上回る性能を達成したことを報告しています。
この論文は、主観的評価に依存していたアニメ声の客観的評価の課題を解決するため、ペアワイズ比較に基づく「AnimeScore」フレームワークを提案し、その有効性と音声生成モデルの最適化への応用可能性を実証したものです。