EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

本文提出了 MedFuncta,这是一个针对大规模医学数据集的统一神经场训练框架,它通过共享元学习神经场和 1D 潜在向量实现跨实例泛化,并引入了改进的 SIREN 激活频率调度与稀疏监督策略以提升效率,同时发布了包含超过 50 万个潜在向量的首个大规模医学神经场数据集 MedNF。

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

本文提出了 RESAR-BEV,一种基于可解释性渐进残差自回归学习的相机 - 雷达融合框架,通过 Drive-Transformer 与 Modifier-Transformer 的级联架构实现从粗到细的 BEV 语义分割,在 nuScenes 数据集上以 54.0% 的 mIoU 和 14.6 FPS 的实时性能实现了最先进的感知效果。

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs