PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本文提出了首个面向 360°全景环境的整体 affordance 定位任务,通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架,有效解决了全景图像中的几何畸变与语义分散问题,显著提升了具身智能的场景级感知能力。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

本文提出了 CycleULM,这是首个用于超声定位显微镜的无标签统一深度学习框架,它通过物理模拟的域翻译技术克服了数据稀缺和仿真到现实的差距,在无需配对真值数据的情况下显著提升了血管成像的对比度、分辨率及微泡定位精度,并实现了实时处理速度。

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本文提出了轻量级统一多模态模型 InternVL-U,通过解耦视觉表征与推理中心的数据合成策略,在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一,其综合性能显著超越了参数量大 3 倍以上的同类基线模型。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

该论文提出了 DISPLAY 框架,通过仅依赖手腕关节坐标和物体边界框的稀疏运动引导、物体感知注意力机制以及多任务辅助训练策略,实现了高保真且可灵活控制的人与物体交互视频生成。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本文提出了首个面向体育场景的大规模空间智能数据集 CourtSI 及其基准测试 CourtSI-Bench,通过利用球场几何结构构建百万级问答数据,揭示了现有视觉语言模型在体育空间推理上的局限性,并验证了基于该数据微调模型可显著提升其在空间理解与评论生成方面的性能。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

该论文提出了一种基于关节角运动图像与 Token-Patch 晚期交互的可解释细粒度文本 - 动作检索方法,通过将局部关节特征映射为伪图像并结合掩码语言模型正则化,克服了现有全局嵌入方法在细粒度对应和可解释性上的不足,在 HumanML3D 和 KIT-ML 数据集上实现了超越最先进水平的检索性能。

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

该论文提出了 ACADiff 框架,利用自适应临床感知潜在扩散模型,通过融合成像数据与 GPT-4o 编码的临床元数据,实现了阿尔茨海默病多模态脑图像(sMRI、FDG-PET、AV45-PET)的高质量双向合成与缺失模态补全,在极端缺失场景下仍保持了优越的诊断性能。

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI