Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

本論文は、音声と映像のフレームレート不一致を解決し、時間的整合性を保つために、 Temporally-aligned Rotary Position Embeddings (TaRoPE) と Cross-Temporal Matching (CTM) 損失を組み込んだトランスフォーマーベースのマルチモーダル自己注意ネットワークを提案し、CREMA-D および RAVDESS データセットにおける感情認識精度の向上を実証しています。

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

本論文は、リソースや規制の制約下で美術館の動画アーカイブの検索性を向上させるため、既存の作品データベースに基づき、ローカルで展開可能な動画言語モデルを用いて作品の要約、カタログ記述の生成、および保守的な類似性マッチングによる作品特定を行う自動化パイプラインを提案するものである。

Minsak Nanang, Adrian Hilton, Armin MustafaFri, 13 Ma🤖 cs.LG

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

本論文は、リアルワールド環境における音声・視覚信号の信頼性が相互作用の段階によって変動する課題に対処するため、各段階でモダリティごとの信頼性を推定・較正し、適応的に融合を行う「SAGE」と呼ばれるフレームワークを提案し、Aff-Wild2 ベンチマークにおいて既存手法を上回る連続的な感情推定性能を実証したものである。

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

Resurfacing Paralinguistic Awareness in Large Audio Language Models

この論文は、大規模音声言語モデル(LALMs)が従来の内容中心の枠組みで無視しがちな副言語的キューへの意識を回復させるため、層ごとの分析に基づき「選択的層微調整」と「補助的な二重レベル分類ヘッド」を組み合わせた新しい微調整プロトコル「PE-FT」を提案し、その有効性を実証したものである。

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散(SGMD)」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

InstructHumans: Editing Animated 3D Human Textures with Instructions

本論文は、既存のテキストベースの 3D 編集手法が抱える一貫性の欠如という課題を解決するため、拡散モデルのスコア歪みサンプリング(SDS)を編集タスク向けに改良した「SDS-E」を導入し、指示に基づき元のアバターの形状を維持しつつ高品質な 3D 人間のテクスチャ編集を実現する「InstructHumans」フレームワークを提案するものです。

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本論文は、スポーツ中継におけるスポンサーロゴの回転や傾きに対応した高精度な検出と可視性分析を実現する「ExposureEngine」というシステムと、それを訓練・評価するための新しいデータセットを提案し、自然言語によるレポート生成機能も備えた包括的なソリューションを提示しています。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

本論文は、拡散モデルに基づく画像編集が、従来のノイズや圧縮に耐性を持つように設計された不可視透かしを、拡散過程におけるノイズ注入と学習された復元ダイナミクスによって実質的に無効化してしまうという理論的・実証的脆弱性を明らかにし、生成変換時代における透かしの設計指針を提言するものである。

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

本論文は、可変受容野とリレートークン機構を導入して長期依存関係のモデル化と希薄な偽造検出の感度を向上させた変形可能状態空間モデル「DeformTrace」を提案し、動画・音声の時間的偽造局所化において最先端の性能を達成することを示しています。

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

本論文は、マルチモーダルな皮肉検出における推論の頑健性を向上させるため、教師モデルからの軌道と生成報酬モデルを用いた双トラック蒸留戦略と、GRPO による最適化を組み合わせたポストトレーニングフレームワーク「SarcasmMiner」を提案し、MUStARD++ ベンチマークで既存手法を上回る性能を達成したことを報告するものです。

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

本論文は、3DMM の表情パラメータをソース画像に直接転送して条件付きトライプレーンを生成し、コントラスト学習による外見依存性の排除を通じて、クロスアイデンティティな表情制御と視点変更を可能にする 3D 意識的なポートレートアニメーション手法「Export3D」を提案するものである。

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

この論文は、テキスト、歌詞、参照オーディオを組み合わせた複合的マルチモーダル指示(CMI)に対応する音楽生成モデルの評価ギャップを埋めるため、大規模な嗜好データセット、高品質な人間アノテーションコーパス、統一ベンチマーク、および効率的な報酬モデル(CMI-RM)を含む包括的なエコシステムを提案し、人間の評価との高い相関と推論時のスケーリング能力を実証しています。

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

この論文は、画像生成モデルにおけるテキストの記述順序が空間配置や役割の紐付けに誤った影響を与える「順序から空間へのバイアス(OTS)」を特定し、その原因がデータ駆動型であることを示すとともに、初期段階での介入や微調整によってこのバイアスを大幅に低減できることを実証しています。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

本論文は、タスク間の負の転移を解消し、データ側の「AV-UIE v2」およびモデル側の「I-LoRA」による明示的な協調メカニズムを通じて、単一タスクモデルを上回る性能で多様な音声・視覚タスクを統合的に理解するスケーラブルなモデル「Crab+^{+}」を提案するものである。

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI