cs.MM 篇论文 | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

该论文提出了一种基于 Transformer 的多模态自注意力网络框架，通过引入时序对齐旋转位置编码（TaRoPE）和跨时序匹配损失（CTM）来解决音视频模态间的采样率不匹配问题，从而在 CREMA-D 和 RAVDESS 数据集上显著提升了情感识别性能。

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

On the Possible Detectability of Image-in-Image Steganography

本文揭示了图像内嵌图像（Image-in-Image）隐写方案因嵌入过程产生的混合特性而极易被检测，并提出了一种基于独立分量分析高阶矩的简单可解释隐写分析新方法，实验表明该方法在区分载体与隐写图像时准确率高达 84.6%，且此类方案对传统隐写分析也表现出极高的可检测性。

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

该论文针对大型音频语言模型忽视副语言线索的问题，提出了一种包含分层微调和辅助分类头的副语言增强微调（PE-FT）协议，通过分层分析识别关键层并有效提升了模型的副语言感知能力。

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

该论文提出了风格引导的运动扩散模型（SGMD），通过结合 Transformer 架构、风格调制模块以及时空掩码机制，实现了能够根据音乐特征和用户风格提示生成既真实又具风格一致性、且支持轨迹生成、补间及修复等灵活控制任务的舞蹈序列。

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

本文介绍了 altiro3D，这是一个开源扩展库，它利用单张 RGB 图像或平面视频，结合 MiDaS 深度估计、OpenCV 与 Telea 图像修复技术以及快速投影算法，生成多视角光场图像或视频，从而实现逼真的 3D 自由视角体验。

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

本文提出了 InstructHumans 框架，通过引入一种能平衡编辑效果与源角色一致性的改进版编辑分数蒸馏采样（SDS-E）方法，实现了基于指令的动画化 3D 人体纹理的高质量编辑。

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate，这是一个基于扩散 Transformer 的高性能视频生成框架，通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器，在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破，并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本文提出了 ExposureEngine，这是一个面向体育转播的端到端系统，通过预测旋转边界框（OBB）实现精准的品牌曝光检测，并结合自然语言智能体层生成可审计的赞助可视性分析报表。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

本文从理论与实证角度揭示了基于扩散模型的图像编辑技术如何通过去噪过程系统性衰减并消除鲁棒隐形水印，导致水印在编辑后几乎无法被解码，并据此提出了相应的伦理考量与设计指南。

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

← 上一页

cs.MM

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

On the Possible Detectability of Image-in-Image Steganography

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Controllable Dance Generation with Style-Guided Motion Diffusion

altiro3D: Scene representation from single image and novel view synthesis

InstructHumans: Editing Animated 3D Human Textures with Instructions

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Order Is Not Layout: Order-to-Space Bias in Image Generation

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

cs.MM

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

On the Possible Detectability of Image-in-Image Steganography

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Controllable Dance Generation with Style-Guided Motion Diffusion

altiro3D: Scene representation from single image and novel view synthesis

InstructHumans: Editing Animated 3D Human Textures with Instructions

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Order Is Not Layout: Order-to-Space Bias in Image Generation

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation