Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

本文介绍了 Molmo2,这是一个在视频理解与像素级定位(如点选和跟踪)方面达到开源状态最先进水平的视觉语言模型家族,其核心贡献在于构建了 7 个全新视频数据集和 2 个多图像数据集,并提出了高效的训练方案,使其在多项任务上超越了现有开源模型甚至部分闭源模型。

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

本文提出了一种基于残差量化变分自编码器(RVQ-VAE)结合对比学习与信息泄露损失的新方法,通过构建从粗粒度到细粒度的运动表征来实现内容与风格的解耦,并利用量化码本交换技术在不进行微调的情况下实现了高效的人体运动风格迁移、去除及混合。

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

本文提出了名为 GigaBrain-0.5M* 的视觉 - 语言 - 动作(VLA)模型,该模型基于在海量机器人数据上预训练的 GigaBrain-0.5,并通过世界模型驱动的强化学习框架 RAMP 显著提升了长程任务规划与跨任务适应能力,在折叠衣物、装箱及制作意式浓缩咖啡等复杂任务中取得了超越基线约 30% 的性能提升。

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

该研究利用包含 1888 名参与者的大规模视频数据集,系统评估了七种视频基础模型在帕金森病远程筛查中的表现,揭示了不同模型在捕捉语音动力学、面部表情及肢体运动等特定临床任务上的优势与局限,并为远程神经监测中的模型选择与任务配置建立了严谨基准。

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs