Q2^2: Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

本文针对低比特量化在目标检测和图像分割任务中因特征融合阶段梯度失衡导致的性能下降问题,提出了包含量化感知梯度平衡融合(Q-GBFusion)与量化感知注意力分布对齐(Q-ADA)的 Q2^2框架,通过动态重平衡梯度贡献及重构监督分布,在不增加推理开销的前提下显著提升了量化模型的检测与分割精度。

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

本文提出了 USF-Net,一种集成自适应大核卷积与低复杂度注意力机制的统一时空融合网络,旨在解决现有地面云图序列外推方法在特征提取、长程时空依赖建模及计算效率方面的局限,并通过发布 ASI-CIS 数据集验证了其在预测精度与效率上的优越性。

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

本文提出了首个基于推理增强的大规模多模态模型(LMM)的词汇无关细粒度识别框架 FiNDR,通过“推理生成候选标签 - 视觉语言模型筛选排序 - 构建轻量级分类器”的自动化三步流程,在无需预定义标签集的情况下实现了超越现有方法及零-shot 基线的最先进性能。

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

本文介绍了 Molmo2,这是一个在视频理解与像素级定位(如点选和跟踪)方面达到开源状态最先进水平的视觉语言模型家族,其核心贡献在于构建了 7 个全新视频数据集和 2 个多图像数据集,并提出了高效的训练方案,使其在多项任务上超越了现有开源模型甚至部分闭源模型。

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

本文提出了一种基于残差量化变分自编码器(RVQ-VAE)结合对比学习与信息泄露损失的新方法,通过构建从粗粒度到细粒度的运动表征来实现内容与风格的解耦,并利用量化码本交换技术在不进行微调的情况下实现了高效的人体运动风格迁移、去除及混合。

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

本文提出了名为 GigaBrain-0.5M* 的视觉 - 语言 - 动作(VLA)模型,该模型基于在海量机器人数据上预训练的 GigaBrain-0.5,并通过世界模型驱动的强化学习框架 RAMP 显著提升了长程任务规划与跨任务适应能力,在折叠衣物、装箱及制作意式浓缩咖啡等复杂任务中取得了超越基线约 30% 的性能提升。

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs