GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

本文提出了 GeoAware-VLA,一种通过集成预训练几何视觉模型的特征来增强视点不变性的视觉 - 语言 - 动作模型,该方法在无需重新训练视觉编码器或依赖显式 3D 数据的情况下,显著提升了机器人在未见视角下的零样本泛化能力,并在仿真与真实物理环境中均取得了优异表现。

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer(VGGT)的量化框架 QuantVGGT,通过引入双平滑细粒度量化与噪声过滤多样化采样技术,有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题,在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本文提出了 QuantSparse 框架,通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制,有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题,在显著降低存储与推理成本的同时大幅提升了生成质量。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs