ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria FarinellaWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本文提出了首个面向 360°全景环境的整体 affordance 定位任务,通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架,有效解决了全景图像中的几何畸变与语义分散问题,显著提升了具身智能的场景级感知能力。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang LiWed, 11 Ma💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav ValadaWed, 11 Ma💻 cs

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

本文提出了 CycleULM,这是首个用于超声定位显微镜的无标签统一深度学习框架,它通过物理模拟的域翻译技术克服了数据稀缺和仿真到现实的差距,在无需配对真值数据的情况下显著提升了血管成像的对比度、分辨率及微泡定位精度,并实现了实时处理速度。

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing TangWed, 11 Ma⚡ eess

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本文提出了轻量级统一多模态模型 InternVL-U,通过解耦视觉表征与推理中心的数据合成策略,在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一,其综合性能显著超越了参数量大 3 倍以上的同类基线模型。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie ZhangWed, 11 Ma💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

该论文提出了 DISPLAY 框架,通过仅依赖手腕关节坐标和物体边界框的稀疏运动引导、物体感知注意力机制以及多任务辅助训练策略,实现了高保真且可灵活控制的人与物体交互视频生成。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong WangWed, 11 Ma💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本文提出了首个面向体育场景的大规模空间智能数据集 CourtSI 及其基准测试 CourtSI-Bench,通过利用球场几何结构构建百万级问答数据,揭示了现有视觉语言模型在体育空间推理上的局限性,并验证了基于该数据微调模型可显著提升其在空间理解与评论生成方面的性能。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang ZhongWed, 11 Ma💻 cs