cs.MM 篇论文 | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

本文提出了概念漂移引导的 LayerNorm 微调（CDGLT）框架，通过利用跨模态嵌入的球面线性插值生成概念漂移并结合提示构建策略，在显著降低训练成本的同时实现了多模态隐喻识别的当前最佳性能。

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法，旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

该论文提出了一种噪声条件混合专家框架，通过噪声感知专家路由、通用模型专家专业化策略及信噪比衰减课程学习协议，将特征空间分解为专用子空间，从而在复杂噪声环境下显著提升了说话人验证的鲁棒性与泛化能力。

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

该论文提出了首个音频 - 视觉世界模型（AVWM）框架，通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集，并设计 AV-CDiT 多模态扩散 Transformer 模型，实现了在精确动作控制下对视听动态的高保真模拟，显著提升了智能体在连续视听导航任务中的表现。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

该论文介绍了 MEGC2026 微表情挑战赛，旨在通过引入基于多模态大语言模型的微表情视频问答（ME-VQA）和长视频问答（ME-LVQA）两项新任务，推动微表情分析在复杂时空推理与多模态理解领域的研究进展。

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

本文提出了名为 VoxEmo 的综合基准，旨在通过引入分布感知软标签和提示词集成策略，评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

该论文通过对比虚拟现实（VR）与传统视频会议，利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验，并揭示了两者在不同延迟条件下的内在关联机制，从而为优化沉浸式虚拟环境系统提供了指导。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

本文提出了一种名为 TPIFM 的任务感知模型，该模型基于自由能原理，通过量化不同协作任务对网络延迟和卡顿的感知差异（即任务特定的最小可觉差），实现了对远程增强现实协作中感知交互流畅性的准确评估。

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

该研究通过控制实验，系统分析了网络延迟对网络虚拟白板中实用性与享乐性多维体验质量的影响，并深入探讨了这种影响在不同协作模式（顺序协作与自由协作）及不同呈现形式（有无虚拟化身）下的差异，旨在为优化此类系统的实际部署提供指导。

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

本文提出了 MORE-R1，一种通过监督微调构建细粒度逐步推理数据并结合强化学习（GRPO）优化策略，以显著提升大视觉语言模型在跨模态对象 - 实体关系提取任务中性能与推理透明度的新方法。

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

该研究提出了一种由大语言模型驱动的动态多模态表达生成方法，通过构建语义敏感提示实现教学指令与语音手势的协同，显著提升了虚拟现实中教学代理的拟人感、社会临场感及学习者的参与度与学习效果。

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

本文针对动态人机交互场景下的具身问答挑战，提出了包含动态与静态子集的新数据集 DynHiL-EQA，并设计了无需训练的 DIVRR 框架，通过相关性引导的视图细化与选择性记忆机制，有效解决了遮挡歧义并实现了高效推理。

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

该论文提出了一种名为 PiVOT 的新型视觉提示机制，通过利用预训练基础模型（CLIP）在线自动生成并优化视觉提示，引导跟踪器生成实例感知特征图以有效抑制干扰物，从而提升通用目标跟踪的性能。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务，即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准，旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展，使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

本文提出了名为 Q-BAR 的量子增强混合框架，利用变分量子电路的高表达能力和参数效率，在数据稀缺条件下有效检测在线创作者内容中的语义突变异常。

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

本文提出了名为 Emotion Collider (EC-Net) 的双曲超图框架，该框架利用庞加莱球嵌入表示模态层次结构，并通过双向消息传递、双曲空间对比学习及自适应超边构建，在噪声或部分模态缺失的情况下显著提升了多模态情感识别的鲁棒性与准确率。

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

本文提出了 ModalImmune 框架，通过训练过程中可控地坍缩特定模态信息并结合自适应正则化、信息增益引导控制及曲率感知梯度掩蔽等技术，使多模态模型在面对输入通道丢失或损坏时仍能保持鲁棒性、收敛稳定性及重建能力。

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本文提出了名为 TimeSpot 的基准测试，旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力，结果显示当前最先进的模型在此类任务上表现不足，亟需新方法以实现鲁棒的地理时空理解。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

本文提出了名为 CONSTANT 的基于扩散模型的单样本手写生成方法，通过引入风格感知量化、对比学习目标以及潜在空间补丁对比增强三大创新，有效解决了从单张参考图像中捕捉复杂手写风格特征并生成高质量、细节逼真手写图像的难题。

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

该论文提出了一种通过文本生成骨架序列再驱动视频扩散模型的两级级联框架，并构建了包含复杂杂技动作的合成数据集，有效解决了现有方法在生成翻跟头、空翻等复杂人体运动视频时面临的细粒度控制困难、数据匮乏及长序列姿态生成成本高昂等问题。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs