Text-only adaptation in LLM-based ASR through text denoising

この論文は、LLM ベースの音声認識システムをテキストデータのみで新規ドメインに適応させる際、従来のファインチューニングでは生じる音声とテキストのモダリティ間の整合性の崩壊を防ぐため、ノイズを含むテキストからのクリーンな転写の復元という「テキスト去雑音」タスクとして適応プロセスを再定義する軽量な手法を提案し、既存の最良手法を凌ぐ性能向上を実現したことを報告しています。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

本論文は、リソース制約のあるロボット向けに、ゼロショットおよびワンショット適応を用いた小規模言語モデル(SLM)のリーダー・フォロワー役割分類を評価し、ファインチューニングされたモデルが低遅延かつ高精度な役割割り当てを実現できる一方で、対話の複雑さが増すと性能が低下するトレードオフを明らかにしたものである。

Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. LahrFri, 13 Ma⚡ eess

Scalable and Convergent Generalized Power Iteration Precoding for Massive MIMO Systems

本論文は、大規模 MIMO システムにおいて、最適プリコーダの低次元部分空間特性を活用し、アンテナ数ではなくユーザー数に依存する計算量で高スペクトル効率を実現する、収束保証付きの拡張可能で効率的な一般化パワー反復プリコーディング(GPIP)フレームワークを提案しています。

Seunghyeong Yoo, Mintaek Oh, Jeonghun Park, Namyoon Lee, Jinseok ChoiFri, 13 Ma⚡ eess

Wide-Area GNSS Spoofing and Jamming Detection Using AIS-Derived Spatiotemporal Integrity Monitoring

本論文は、AIS メッセージの通信層欠陥を事前フィルタリングし、運動整合性や時空間クラスタリングを適用する三段階フレームワークを提案することで、広域におけるGNSS スプーフィングおよびジャミングを検出し、誤警報を大幅に低減できることを実証しています。

Sanghyeon Park, DeukJae Cho, Pyo-Woong SonFri, 13 Ma⚡ eess

DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators

本論文は、関節制限の可行性を維持しつつ軌道計画の効率と信頼性を向上させるため、縮小空間のガウス・ニュートン法と制約付き二次計画法を組み合わせ、非単調な受入則を採用した新しい軌道最適化アルゴリズム「DRAFTO」を提案し、多様なシナリオや複雑な把持タスクにおけるその有効性を検証したものである。

Yichang Feng, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration

本論文は、人間とロボットの協働において、物理的な修正からタスクレベルの意図と運動パラメータを同時に推定し、ロボットの適応を可能にする新しいフレームワーク「TATIC」を提案し、その有効性をハードウェア実験で実証したものである。

Jiurun Song, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

本論文は、フローベースの動画から音声生成モデル向けに、人間の嗜好に合致した大規模なペアデータ生成パイプラインとカリキュラム学習を備えた Direct Preference Optimization(DPO)フレームワーク「V2A-DPO」を提案し、VGGSound ベンチマークにおいて既存の手法や DDPO 最適化モデルを上回る最先端の性能を達成したことを報告しています。

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

本論文は、音声と映像のフレームレート不一致を解決し、時間的整合性を保つために、 Temporally-aligned Rotary Position Embeddings (TaRoPE) と Cross-Temporal Matching (CTM) 損失を組み込んだトランスフォーマーベースのマルチモーダル自己注意ネットワークを提案し、CREMA-D および RAVDESS データセットにおける感情認識精度の向上を実証しています。

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

この論文は、テキストで訓練された大規模言語モデル(LLM)を音声タスクに応用して部分的に改ざんされた音声内の偽造単語を特定する手法を提案し、AV-Deepfake1M および PartialEdit での実験により、モデルが学習データ特有の編集パターンに依存していることが示されたものの、未見の編集スタイルへの汎化性が課題であることを明らかにしています。

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

南アフリカとウガンダのコミュニティ医療センターで収集された結核患者の咳音データを用いた研究において、XLS-R の最初の 3 層のみを活用した事前学習済みトランスフォーマーモデルが、咳の開始・終了点の自動検出およびその後の結核分類タスクにおいて、既存のモデルやベースラインを凌駕する高い精度と計算効率を実現し、スマートフォンを用いた大規模なスクリーニングツールの実用化可能性を示しました。

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Performance Bounds and Robust Filtering for LEO Inter-Satellite Synchronization under Cross-Epoch Doppler Coupling

本論文は、低軌道衛星間リンクにおけるクロスエポック・ドップラー結合が位相不確実性の発散を防ぐために不可欠であることを理論的に証明し、これを考慮した事後クラメル・ラオ下限を導出するとともに、ハードゲートとハバー M 推定を融合した頑健なフィルタリング手法を提案し、その有効性をシミュレーションで実証しています。

Haofan Dong, Houtianfu Wang, Hanlin Cai, Ozgur B. AkanFri, 13 Ma⚡ eess

Distributed Kalman--Consensus Filtering with Adaptive Uncertainty Weighting for Multi-Object Tracking in Mobile Robot Networks

本論文は、移動ロボットネットワークにおけるマルチオブジェクト追跡において、局所追跡フレームワークに不確実性認識型の適応的合意重み付けメカニズムを導入し、局所推定値の信頼性に基づいて近隣情報の影響を動的に調整することで、位置推定誤差を持つエージェントの追跡精度を向上させる分散カルマン合意フィルタを提案し、その有効性をシミュレーションで実証したものである。

Niusha Khosravi, Rodrigo Ventura, Meysam BasiriFri, 13 Ma⚡ eess

Hybrid eTFCE-GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry

本論文は、ユニオン・ファインド構造による正確なクラスターサイズ推定と解析的ガウス確率場理論を組み合わせることで、大規模なボクセルベースの形態計測データに対して、従来の置換検定を不要としつつ、厳密なクラスターサイズを高速に取得して p 値を導出する「Hybrid eTFCE-GRF」手法を提案し、その有効性と計算効率の飛躍的向上を実証したものである。

Don Yin, Hao Chen, Takeshi Miki, Boxing Liu, Enyu YangFri, 13 Ma⚡ eess