EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

本文提出了 EgoReasoner 框架,通过任务自适应的思维模板和奖励机制,使模型能够针对第一人称视频中的不同 4D 推理任务进行结构化思考,从而在仅使用 16K 样本训练的情况下,于 HD-EPIC 基准测试中显著超越了参数量更大的基线模型。

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

本文提出了 SCOPE 框架,通过利用基类训练场景中的未标注背景区域构建伪实例原型池,并将其与少样本原型融合以增强表示,从而在无需重训练或增加参数的情况下,有效解决了 3D 点云增量少样本分割中的灾难性遗忘和判别性不足问题,在 ScanNet 和 S3DIS 数据集上取得了最先进性能。

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

本文提出了 MedFuncta,这是一个针对大规模医学数据集的统一神经场训练框架,它通过共享元学习神经场和 1D 潜在向量实现跨实例泛化,并引入了改进的 SIREN 激活频率调度与稀疏监督策略以提升效率,同时发布了包含超过 50 万个潜在向量的首个大规模医学神经场数据集 MedNF。

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs