From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

该论文通过对比虚拟现实(VR)与传统视频会议,利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验,并揭示了两者在不同延迟条件下的内在关联机制,从而为优化沉浸式虚拟环境系统提供了指导。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

本文提出了名为 Emotion Collider (EC-Net) 的双曲超图框架,该框架利用庞加莱球嵌入表示模态层次结构,并通过双向消息传递、双曲空间对比学习及自适应超边构建,在噪声或部分模态缺失的情况下显著提升了多模态情感识别的鲁棒性与准确率。

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本文提出了名为 TimeSpot 的基准测试,旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力,结果显示当前最先进的模型在此类任务上表现不足,亟需新方法以实现鲁棒的地理时空理解。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

本文提出了名为 CONSTANT 的基于扩散模型的单样本手写生成方法,通过引入风格感知量化、对比学习目标以及潜在空间补丁对比增强三大创新,有效解决了从单张参考图像中捕捉复杂手写风格特征并生成高质量、细节逼真手写图像的难题。

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

该论文提出了一种通过文本生成骨架序列再驱动视频扩散模型的两级级联框架,并构建了包含复杂杂技动作的合成数据集,有效解决了现有方法在生成翻跟头、空翻等复杂人体运动视频时面临的细粒度控制困难、数据匮乏及长序列姿态生成成本高昂等问题。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs