A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

该论文提出了一种名为 SGDFuse 的语义引导扩散模型,通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验,指导条件扩散模型进行从粗到细的生成,从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题,实现了高保真且语义感知强的融合效果。

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

本文提出了名为 LikePhys 的免训练评估方法,通过利用去噪目标作为似然代理来区分物理有效与无效视频,构建了涵盖四大物理领域的基准测试,证明了其指标与人类偏好高度一致,并揭示了当前视频扩散模型在物理理解能力上随模型规模与推理设置扩展而呈现的改进趋势。

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Phys2Real 提出了一种结合视觉语言模型物理参数先验与基于不确定性感知的在线交互适应的“实 - 仿 - 实”强化学习框架,通过融合 3D 高斯溅射重建、VLM 推断及在线估计,显著提升了机器人在复杂物理动力学任务中的 sim-to-real 迁移成功率与效率。

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

本文提出了 3DThinker 框架,通过两阶段训练使视觉语言模型在无 3D 先验和标注数据的情况下,能够像人类一样利用图像中的几何信息进行 3D 空间想象与推理,从而在有限视角下显著提升了空间关系理解能力。

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

该论文针对生成式扩散模型中文化记忆与泛化能力交织的“多模态图标性”现象,提出了将“识别”与“实现”分离的评估框架(CRT 指标),通过大规模实验揭示了模型在文化引用下的行为差异及其受数据频率、文本独特性等多重因素的影响,从而推动了从简单图文匹配向深层语境理解的评估范式转变。

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

XR-DT: Extended Reality-Enhanced Digital Twin for Safe Motion Planning via Human-Aware Model Predictive Path Integral Control

本文提出了 XR-DT 框架,该框架结合扩展现实(XR)数字孪生技术与基于注意力机制的轨迹预测模型,通过新型的人类感知模型预测路径积分(HA-MPPI)控制器,实现了人机共享空间中安全、高效且可解释的机器人运动规划。

Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Yiming Xu, Jihyung Park, Tianyi Zeng, Sikai Chen, Ziran Wang, Junfeng Jiao, Christian Claudel2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

该论文指出强化学习导致大语言模型推理多样性下降的根源在于其隐式优化了“零强制”反向 KL 散度,并提出了一种基于α\alpha-散度族的新方法,通过显式构建目标分布并调节精度与多样性的权衡,在 Lean 定理证明基准上实现了覆盖率和精度的最优平衡。

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI