Q: Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization
本文针对低比特量化在目标检测和图像分割任务中因特征融合阶段梯度失衡导致的性能下降问题,提出了包含量化感知梯度平衡融合(Q-GBFusion)与量化感知注意力分布对齐(Q-ADA)的 Q框架,通过动态重平衡梯度贡献及重构监督分布,在不增加推理开销的前提下显著提升了量化模型的检测与分割精度。
8944 篇论文
本文针对低比特量化在目标检测和图像分割任务中因特征融合阶段梯度失衡导致的性能下降问题,提出了包含量化感知梯度平衡融合(Q-GBFusion)与量化感知注意力分布对齐(Q-ADA)的 Q框架,通过动态重平衡梯度贡献及重构监督分布,在不增加推理开销的前提下显著提升了量化模型的检测与分割精度。
本文提出了 USF-Net,一种集成自适应大核卷积与低复杂度注意力机制的统一时空融合网络,旨在解决现有地面云图序列外推方法在特征提取、长程时空依赖建模及计算效率方面的局限,并通过发布 ASI-CIS 数据集验证了其在预测精度与效率上的优越性。
该论文揭示了现有 MKB-VQA 基准测试中存在的“视觉捷径”缺陷,提出了自动构建的 RETINA 基准以消除该偏差,并设计了 MIMIR 模型通过引入多相关实体图像增强文档表征,从而有效提升了多模态知识问答在复杂场景下的性能。
本文提出了一种名为 MedSegLatDiff 的潜在空间扩散模型框架,通过结合变分自编码器与加权交叉熵损失,在显著降低计算成本的同时实现了高效且多样化的医学图像分割,从而在多个数据集上达到了最先进的性能并提升了临床诊断的可解释性与可靠性。
本文提出了名为 ClimaDrive 的语义引导图像生成框架及由此构建的大规模 ClimaOoD 基准,通过合成物理真实且天气多样的异常驾驶数据,显著提升了开放世界场景下异常分割模型的泛化能力与鲁棒性。
本文提出了 VLM-Pruner,一种无需训练的离心式令牌剪枝算法,通过引入空间稀疏缓冲(BSS)准则和并行贪婪策略,在平衡冗余度与空间分布的同时保留细粒度物体细节,从而在多个视觉语言模型上实现了高达 88.9% 的剪枝率并提升了端到端推理速度。
本文提出了 TIMAR 框架,通过因果交错掩码自回归机制建模对话中的音频 - 视觉上下文,实现了能够捕捉双向动态协调与表达变化的 3D 会话头部生成,并在 DualTalk 基准测试中显著优于现有方法。
本文提出了首个基于推理增强的大规模多模态模型(LMM)的词汇无关细粒度识别框架 FiNDR,通过“推理生成候选标签 - 视觉语言模型筛选排序 - 构建轻量级分类器”的自动化三步流程,在无需预定义标签集的情况下实现了超越现有方法及零-shot 基线的最先进性能。
本文提出了 UniPath 框架,通过利用成熟的病理诊断理解模型生成诊断语义 Token 并结合原型控制,有效解决了计算病理中图像生成面临的语义控制不足、术语异构及数据稀缺等挑战,实现了具备细粒度语义控制能力的病理图像生成。
本文提出了 WebGym,这是一个包含近 30 万个真实网站任务的大规模开源训练环境,通过高效的异步回滚系统和强化学习微调,使基于 Qwen-3-VL-8B 的视觉智能体在未见过的真实网站任务上取得了超越 GPT-4o 等专有模型的显著性能提升。
本文提出了 ThinkRL-Edit,一种通过解耦视觉推理与图像合成、引入思维链采样规划反思机制、采用无偏奖励分组策略及二元检查表奖励,从而显著提升推理密集型图像编辑性能的新框架。
该论文提出了名为 MERGETUNE 的模型无关持续微调策略,利用线性模式连接(LMC)的几何特性,通过构建零-shot 模型与微调模型之间的低损失路径,在无需数据回放或架构变更的情况下有效恢复视觉语言模型在微调过程中丢失的预训练知识,从而显著提升基线泛化能力与鲁棒性。
本文介绍了 Molmo2,这是一个在视频理解与像素级定位(如点选和跟踪)方面达到开源状态最先进水平的视觉语言模型家族,其核心贡献在于构建了 7 个全新视频数据集和 2 个多图像数据集,并提出了高效的训练方案,使其在多项任务上超越了现有开源模型甚至部分闭源模型。
本文提出了名为 LingBot-VLA 的实用型视觉 - 语言 - 动作基础模型,该模型基于 9 种双臂机器人配置的 2 万小时真实世界数据训练,在跨平台任务泛化性、训练效率及实际部署能力上均显著优于现有方案,并开源了代码、模型及基准数据以推动机器人学习领域的发展。
本文提出了一种基于拉姆曲线(Lamé curve)的通用可见光定位算法(LC-VLP),通过将常见 LED 形状统一建模并结合免对应点 PnP 初始化技术,有效解决了异构 LED 场景下的相机位姿估计难题,显著提升了定位精度。
本文提出了一种基于残差量化变分自编码器(RVQ-VAE)结合对比学习与信息泄露损失的新方法,通过构建从粗粒度到细粒度的运动表征来实现内容与风格的解耦,并利用量化码本交换技术在不进行微调的情况下实现了高效的人体运动风格迁移、去除及混合。
该论文提出 OneVision-Encoder,通过引入与视频编解码器对齐的稀疏性原则,将计算资源聚焦于高熵信号区域,从而在显著减少视觉令牌和预训练数据的同时,实现了比现有主流视觉骨干网络更优的多模态理解性能。
本文提出了一种名为 HLGFA 的无监督工业异常检测框架,该框架通过共享冻结骨干网络提取多尺度特征,并利用高分辨率的结构与细节先验引导低分辨率特征对齐,从而在无需像素级重建的情况下实现了对 MVTec AD 基准数据集上异常区域的高精度检测。
本文提出了名为 GigaBrain-0.5M* 的视觉 - 语言 - 动作(VLA)模型,该模型基于在海量机器人数据上预训练的 GigaBrain-0.5,并通过世界模型驱动的强化学习框架 RAMP 显著提升了长程任务规划与跨任务适应能力,在折叠衣物、装箱及制作意式浓缩咖啡等复杂任务中取得了超越基线约 30% 的性能提升。
本文提出了 PCReg-Net,一种通过四模块级进式对比引导框架解决跨域图像配准中外观变化与几何失配耦合难题的轻量级网络,在 FIRE-Reg-256 等基准上实现了高精度与实时推理。