Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

本論文は、自己教師あり表現再構成損失(SSRR)を導入することで、低遅延のストリーミング型ニューラルオーディオコーデックにおいて、高知覚性を実現しつつ単一 GPU での効率的な学習を可能にする「JHCodec」を提案し、最先端の性能を達成したことを示しています。

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD は、ガウス雑音、無音信号、時間シフトという 3 つの負のサンプルを対比して推論時のみで動作するトレーニング不要のデコーディングフレームワークであり、長文音声認識における幻覚や繰り返しを抑制し、単語誤り率を最大 24.3 ポイント削減すると同時にビームサーチより 48% 高速な生成を実現します。

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

本論文は、データ不足と忘却の課題に直面する太平洋先住民言語の音声認識において、低ランク適応(LoRA)などの手法を評価し、逐次学習における内部表現の漂移と安定性・可塑性のジレンマを明らかにするとともに、これらの言語に特化した堅牢な適応戦略の必要性を強調する実証研究である。

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

フィンランド語、フランス語、スロバキア語の3言語を用いた研究により、自閉症児と非自閉症児の音声分類において、言語固有の特性と普遍的な手がかりの両方が存在し、言語に依存しないロバストな分類には言語を考慮したモデル化と記録条件の均質化が必要であることが示されました。

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

この論文は、フィンランド語、フランス語、スロバキア語の多言語コーパスを用いた分析により、自閉症児の韻律がピッチだけでなく、強度の変動や声質(息混じり感の低さなど)にも言語を超えた特徴的なパターンを示すことを明らかにし、欠陥モデルではなく複雑で独自の音声プロファイルとして捉えるべきであると結論付けています。

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

この論文は、医師と患者の重なり合うヒンディー語・英語コードスイッチング会話から医療状態を抽出する課題に対し、重なり話者分離(EEND-VC)とドメイン特化型 ASR、LLM による誤り修正を組み合わせるオープンソースのカスケードシステムを提案し、DISPLACE-M チャレンジで 1 位を獲得したことを報告しています。

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

この論文は、警察の身体装着カメラ映像を分析する AI 開発において、多様なステークホルダーの視点を統合し、民主的な統治を強化するための「コミュニティインフォームド」なアプローチを提案し、ロサンゼルス警察の交通違反取り締まりに関する研究プロジェクトを通じてその実践を説明するものである。

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

この論文は、LLM ベースの音声認識システムをテキストデータのみで新規ドメインに適応させる際、従来のファインチューニングでは生じる音声とテキストのモダリティ間の整合性の崩壊を防ぐため、ノイズを含むテキストからのクリーンな転写の復元という「テキスト去雑音」タスクとして適応プロセスを再定義する軽量な手法を提案し、既存の最良手法を凌ぐ性能向上を実現したことを報告しています。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

本論文は、フローベースの動画から音声生成モデル向けに、人間の嗜好に合致した大規模なペアデータ生成パイプラインとカリキュラム学習を備えた Direct Preference Optimization(DPO)フレームワーク「V2A-DPO」を提案し、VGGSound ベンチマークにおいて既存の手法や DDPO 最適化モデルを上回る最先端の性能を達成したことを報告しています。

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

この論文は、テキストで訓練された大規模言語モデル(LLM)を音声タスクに応用して部分的に改ざんされた音声内の偽造単語を特定する手法を提案し、AV-Deepfake1M および PartialEdit での実験により、モデルが学習データ特有の編集パターンに依存していることが示されたものの、未見の編集スタイルへの汎化性が課題であることを明らかにしています。

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

南アフリカとウガンダのコミュニティ医療センターで収集された結核患者の咳音データを用いた研究において、XLS-R の最初の 3 層のみを活用した事前学習済みトランスフォーマーモデルが、咳の開始・終了点の自動検出およびその後の結核分類タスクにおいて、既存のモデルやベースラインを凌駕する高い精度と計算効率を実現し、スマートフォンを用いた大規模なスクリーニングツールの実用化可能性を示しました。

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

この論文は、音声生体認証における性差による性能格差を解消するため、デモグラフィックなショートカット学習と特徴の絡み合いという 2 つの課題に対処し、リスクの均一化と解釈可能な特徴ルーティングを行う公平性意識型のリスクゲートフレームワーク「Fair-Gate」を提案するものである。

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

本論文は、限られたラベル付きデータ(2 万サンプル)と未ラベル音声を活用した継続的事前学習(CPT)手法により、スワヒリ語音声認識(ASR)の単語誤り率を 3.24% まで低減し、既存の最優秀学術システムを大幅に上回る性能を達成したことを報告しています。

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess