TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

本文提出了 EmoSURA 评估框架,通过将情感语音描述分解为原子感知单元并结合音频验证机制,有效解决了传统指标和 LLM 在长文本情感语音字幕评估中的语义捕捉不足与推理不一致问题,并配套推出了标准化基准 SURABench 以提升评估的准确性与可靠性。

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

该论文将低维欧几里得空间中kk-中值和kk-均值问题的(1+ε)(1+\varepsilon)-近似算法运行时间从$2^{(1/\varepsilon)^{O(d^2)}}n改进至改进至2^{\tilde{O}(1/\varepsilon)^{d-1}}n,并在GapETH假设下证明了该指数依赖维度,并在Gap-ETH假设下证明了该指数依赖维度d-1$的下界,从而确立了近乎紧致的复杂度界限。

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

该论文提出了一种名为“能力一致性系统”(CCS)的新框架,通过将内存一致性模型(如 MESI)映射到身份授权场景,证明了基于发布一致性(RCC)的撤销策略在高速代理执行环境中能将未授权操作数量从时间依赖的线性增长降低至与代理速度无关的常数级,从而在根本上解决了传统基于时间窗口的访问控制机制在大规模并发下的安全性失效问题。

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本文提出了轻量级统一多模态模型 InternVL-U,通过解耦视觉表征与推理中心的数据合成策略,在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一,其综合性能显著超越了参数量大 3 倍以上的同类基线模型。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

该论文提出了 DISPLAY 框架,通过仅依赖手腕关节坐标和物体边界框的稀疏运动引导、物体感知注意力机制以及多任务辅助训练策略,实现了高保真且可灵活控制的人与物体交互视频生成。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

本文通过在 ROS 中实现并对比五种协作定位算法(CCL、DCL、StCL、CI 和 Standard-CL)在弱数据关联与鲁棒检测条件下的蒙特卡洛仿真,揭示了各方法在精度与一致性之间的权衡,指出 CI 算法在保持竞争力的同时实现了最佳平衡,而 StCL 和 Standard-CL 虽精度最高但存在严重不一致性,DCL 则因隐式正则化机制在挑战性条件下表现出卓越的稳定性。

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本文提出了首个面向体育场景的大规模空间智能数据集 CourtSI 及其基准测试 CourtSI-Bench,通过利用球场几何结构构建百万级问答数据,揭示了现有视觉语言模型在体育空间推理上的局限性,并验证了基于该数据微调模型可显著提升其在空间理解与评论生成方面的性能。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs