Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战,提出了一种名为 LiM-YOLO 的轻量化检测器,通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件,并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题,从而在显著减少参数量的同时实现了优于现有方法的检测精度。

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

该论文提出了 ADHint 方法,通过引入样本难度先验来动态调整提示比例,并结合一致性梯度调制与基于难度的优势估计,有效解决了现有基于提示的强化学习方法中探索与模仿失衡及训练不稳定的问题,从而显著提升了模型的推理能力与泛化性能。

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

该论文针对扩散模型强化学习中的偏好模式崩溃问题,提出了 DivGenBench 基准测试并设计了方向解耦对齐(D²-Align)框架,通过方向性修正奖励信号在保持生成多样性的同时实现了更优的人类偏好对齐。

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

本文提出了 CLEAR-Mamba 框架,通过引入基于超网络的自适应条件层(HaC)和基于证据不确定性学习的不确定性感知预测方案(RaP),并结合构建的大规模多模态眼底血管造影数据集,显著提升了眼科血管造影图像分类的跨域适应性、准确性及预测可靠性。

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

该论文提出了一种无需训练的测试时校正(TTC)方法,通过利用初始帧作为稳定参考锚点来校准自回归蒸馏模型在长视频生成过程中的随机状态,从而有效解决了误差累积问题,在几乎不增加开销的情况下实现了长达 30 秒的高质量视频生成。

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

该论文针对现有单目法线估计方法存在的 3D 几何错位问题,提出了一种名为 RoSE 的新范式,通过将法线估计重构为对几何信息更敏感的“阴影序列估计”,利用图像到视频生成模型预测阴影序列并求解最小二乘问题,从而在真实世界基准测试中实现了最先进的性能。

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

受非平衡热力学启发的扩散模型虽性能卓越但推理延迟高,而现有蒸馏技术因丢弃中间步骤导致结构信息丢失和离散化误差,为此本文提出了 B-DENSE 框架,通过多分支轨迹对齐机制,让学生模型在扩展通道中同时映射教师轨迹的所有离散中间步骤,从而在训练早期实现密集监督并显著提升生成质量。

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

本文提出了名为 CoPeDiT 的通用潜在扩散模型,通过引入具备完整性感知能力的自编码器(CoPeVAE)和专用的 3D 扩散 Transformer 架构(MDiT3D),无需依赖外部手动指示即可自主推断缺失状态,从而实现了在多种缺失模式下具有高保真度和语义一致性的统一 3D MRI 合成。

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess