cs.MM 件の論文 | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

本論文は、音声と映像のフレームレート不一致を解決し、時間的整合性を保つために、 Temporally-aligned Rotary Position Embeddings (TaRoPE) と Cross-Temporal Matching (CTM) 損失を組み込んだトランスフォーマーベースのマルチモーダル自己注意ネットワークを提案し、CREMA-D および RAVDESS データセットにおける感情認識精度の向上を実証しています。

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

本論文は、リソースや規制の制約下で美術館の動画アーカイブの検索性を向上させるため、既存の作品データベースに基づき、ローカルで展開可能な動画言語モデルを用いて作品の要約、カタログ記述の生成、および保守的な類似性マッチングによる作品特定を行う自動化パイプラインを提案するものである。

Minsak Nanang, Adrian Hilton, Armin MustafaFri, 13 Ma🤖 cs.LG

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

本論文は、リアルワールド環境における音声・視覚信号の信頼性が相互作用の段階によって変動する課題に対処するため、各段階でモダリティごとの信頼性を推定・較正し、適応的に融合を行う「SAGE」と呼ばれるフレームワークを提案し、Aff-Wild2 ベンチマークにおいて既存手法を上回る連続的な感情推定性能を実証したものである。

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

On the Possible Detectability of Image-in-Image Steganography

本論文は、画像内に画像を埋め込む高埋め込み率ステガノグラフィ手法が、独立成分分析やウェーブレット分解に基づく高次モーメントの分析により、従来のステガノグラフィ検出手法よりもはるかに高い精度で検出可能であることを示しています。

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

この論文は、大規模音声言語モデル（LALMs）が従来の内容中心の枠組みで無視しがちな副言語的キューへの意識を回復させるため、層ごとの分析に基づき「選択的層微調整」と「補助的な二重レベル分類ヘッド」を組み合わせた新しい微調整プロトコル「PE-FT」を提案し、その有効性を実証したものである。

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散（SGMD）」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

本論文は、単一の RGB 画像や動画から MiDaS による深度推定や画像修復、高速な 3D 投影アルゴリズムを活用して、自由視点表示に対応する光場画像や動画を含む没入型 3D 体験を生成する拡張ライブラリ「altiro3D」を提案するものである。

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

本論文は、既存のテキストベースの 3D 編集手法が抱える一貫性の欠如という課題を解決するため、拡散モデルのスコア歪みサンプリング（SDS）を編集タスク向けに改良した「SDS-E」を導入し、指示に基づき元のアバターの形状を維持しつつ高品質な 3D 人間のテクスチャ編集を実現する「InstructHumans」フレームワークを提案するものです。

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本論文は、スポーツ中継におけるスポンサーロゴの回転や傾きに対応した高精度な検出と可視性分析を実現する「ExposureEngine」というシステムと、それを訓練・評価するための新しいデータセットを提案し、自然言語によるレポート生成機能も備えた包括的なソリューションを提示しています。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

本論文は、拡散モデルに基づく画像編集が、従来のノイズや圧縮に耐性を持つように設計された不可視透かしを、拡散過程におけるノイズ注入と学習された復元ダイナミクスによって実質的に無効化してしまうという理論的・実証的脆弱性を明らかにし、生成変換時代における透かしの設計指針を提言するものである。

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

← 前へ

cs.MM

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

On the Possible Detectability of Image-in-Image Steganography

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Controllable Dance Generation with Style-Guided Motion Diffusion

altiro3D: Scene representation from single image and novel view synthesis

InstructHumans: Editing Animated 3D Human Textures with Instructions

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Order Is Not Layout: Order-to-Space Bias in Image Generation

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

cs.MM

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

On the Possible Detectability of Image-in-Image Steganography

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Controllable Dance Generation with Style-Guided Motion Diffusion

altiro3D: Scene representation from single image and novel view synthesis

InstructHumans: Editing Animated 3D Human Textures with Instructions

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Order Is Not Layout: Order-to-Space Bias in Image Generation

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation