Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
本文介绍了 Molmo2,这是一个在视频理解与像素级定位(如点选和跟踪)方面达到开源状态最先进水平的视觉语言模型家族,其核心贡献在于构建了 7 个全新视频数据集和 2 个多图像数据集,并提出了高效的训练方案,使其在多项任务上超越了现有开源模型甚至部分闭源模型。
8993 篇论文
本文介绍了 Molmo2,这是一个在视频理解与像素级定位(如点选和跟踪)方面达到开源状态最先进水平的视觉语言模型家族,其核心贡献在于构建了 7 个全新视频数据集和 2 个多图像数据集,并提出了高效的训练方案,使其在多项任务上超越了现有开源模型甚至部分闭源模型。
本文提出了名为 LingBot-VLA 的实用型视觉 - 语言 - 动作基础模型,该模型基于 9 种双臂机器人配置的 2 万小时真实世界数据训练,在跨平台任务泛化性、训练效率及实际部署能力上均显著优于现有方案,并开源了代码、模型及基准数据以推动机器人学习领域的发展。
本文提出了一种基于拉姆曲线(Lamé curve)的通用可见光定位算法(LC-VLP),通过将常见 LED 形状统一建模并结合免对应点 PnP 初始化技术,有效解决了异构 LED 场景下的相机位姿估计难题,显著提升了定位精度。
本文提出了一种基于残差量化变分自编码器(RVQ-VAE)结合对比学习与信息泄露损失的新方法,通过构建从粗粒度到细粒度的运动表征来实现内容与风格的解耦,并利用量化码本交换技术在不进行微调的情况下实现了高效的人体运动风格迁移、去除及混合。
该论文提出 OneVision-Encoder,通过引入与视频编解码器对齐的稀疏性原则,将计算资源聚焦于高熵信号区域,从而在显著减少视觉令牌和预训练数据的同时,实现了比现有主流视觉骨干网络更优的多模态理解性能。
本文提出了一种名为 HLGFA 的无监督工业异常检测框架,该框架通过共享冻结骨干网络提取多尺度特征,并利用高分辨率的结构与细节先验引导低分辨率特征对齐,从而在无需像素级重建的情况下实现了对 MVTec AD 基准数据集上异常区域的高精度检测。
本文提出了名为 GigaBrain-0.5M* 的视觉 - 语言 - 动作(VLA)模型,该模型基于在海量机器人数据上预训练的 GigaBrain-0.5,并通过世界模型驱动的强化学习框架 RAMP 显著提升了长程任务规划与跨任务适应能力,在折叠衣物、装箱及制作意式浓缩咖啡等复杂任务中取得了超越基线约 30% 的性能提升。
本文提出了 PCReg-Net,一种通过四模块级进式对比引导框架解决跨域图像配准中外观变化与几何失配耦合难题的轻量级网络,在 FIRE-Reg-256 等基准上实现了高精度与实时推理。
该研究利用包含 1888 名参与者的大规模视频数据集,系统评估了七种视频基础模型在帕金森病远程筛查中的表现,揭示了不同模型在捕捉语音动力学、面部表情及肢体运动等特定临床任务上的优势与局限,并为远程神经监测中的模型选择与任务配置建立了严谨基准。
本文针对视觉密集型工程文档问答中预摄入策略导致的细节丢失与检索失效问题,提出了零预摄入的“延迟视觉摄入”(DVI)框架,通过利用文档结构信息构建分层索引并结合 BM25 检索与按需 VLM 分析,在多个数据集上显著超越了现有基于嵌入检索的方法。
该论文提出了一种基于交替最小化的全局优化方法,通过结合凸优化与并行网格搜索,实现了在更高分辨率下从散焦图像中高效恢复深度图。
该论文提出了一种基于哈达玛积的紧凑潜在编码方法,通过构建保持线性和近似乘积性质的可学习编解码架构,仅需少量 RGB 渲染通道即可实现高效且高精度的光谱渲染,并支持将传统 RGB 资产无缝集成到光谱管线中。
该论文提出了一种基于解压缩的皮肤颜色解耦框架,通过引入随机去色映射和几何对齐后处理,实现了病变图像在不同肤色与成像条件下的可控编辑与增强,从而有效解决了因肤色差异导致的模型性能下降问题并促进了皮肤病变的公平诊断。
本文针对 SAR 影像智能解译难题,构建了首个 SAR 图文阿尔法地球特征三元组数据集,并提出了一种融合地理空间先验与时空特征嵌入、采用两阶段解耦微调策略的专用视觉语言模型 FUSAR-GPT,显著提升了 SAR 领域的视觉语言理解性能。
本文提出了 DICArt 框架,通过将关节物体姿态估计建模为条件离散扩散过程,并结合动态流决策器与分层运动学耦合策略,有效解决了连续空间搜索复杂及难以融入运动学约束的难题,显著提升了类别级 6D 姿态估计的精度与鲁棒性。
本文提出了 TextPecker,一种结合字符级结构异常标注数据集与强化学习策略的即插即用方法,旨在解决现有视觉文本生成模型因缺乏结构异常感知能力而导致的渲染失真问题,从而显著提升了生成文本的结构保真度与语义对齐效果。
本文提出了 NoRD,一种无需推理标注且仅需少量数据即可通过改进的 Dr. GRPO 算法克服难度偏差,从而在 Waymo 和 NAVSIM 基准上实现与现有模型竞争性能的端到端视觉 - 语言 - 动作自动驾驶模型。
本文针对多模态大模型在强化学习中因极端样本导致标准差归一化不稳定的问题,提出了一种基于视觉熵和模型置信度定义样本难度的“困难感知组归一化”(Durian)方法,通过按难度重分组并共享组内标准差,有效消除了极端值干扰并显著提升了多模态推理性能。
本文提出了 EndoDDC 方法,通过结合图像、稀疏深度信息及深度梯度特征,并利用扩散模型进行优化,有效解决了内窥镜环境中弱纹理和光照反射导致的深度估计稀疏与不准确问题,显著提升了手术机器人导航的 3D 重建精度与鲁棒性。
本文提出了 CoLoGen 框架,通过渐进式学习课程和核心模块“渐进式表征编织(PRW)”,有效解决了统一图像生成中概念理解与空间定位表征冲突的问题,实现了在编辑、可控生成及定制化生成等任务上的卓越性能。