SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

本文提出了 SurgFormer,这是一种基于多分辨率门控 Transformer 的可扩展深度学习框架,它通过在 XFEM 生成的手术数据集上进行训练,能够利用统一的模型同时实现大规模体网格上的软组织实时变形预测及包含切除操作(如胆囊切除术和阑尾切除术)的拓扑改变模拟。

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

本文提出了 EgoReasoner 框架,通过任务自适应的思维模板和奖励机制,使模型能够针对第一人称视频中的不同 4D 推理任务进行结构化思考,从而在仅使用 16K 样本训练的情况下,于 HD-EPIC 基准测试中显著超越了参数量更大的基线模型。

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

本文提出了 SCOPE 框架,通过利用基类训练场景中的未标注背景区域构建伪实例原型池,并将其与少样本原型融合以增强表示,从而在无需重训练或增加参数的情况下,有效解决了 3D 点云增量少样本分割中的灾难性遗忘和判别性不足问题,在 ScanNet 和 S3DIS 数据集上取得了最先进性能。

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs