A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

该论文提出了一种名为 SGDFuse 的语义引导扩散模型,通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验,指导条件扩散模型进行从粗到细的生成,从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题,实现了高保真且语义感知强的融合效果。

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

本文提出了一种基于\ell_\infty-范数 Moreau 包络构建多元势函数的“多元专家场”新框架,用于图像先验学习,该模型在图像去噪、去模糊及压缩感知 MRI 等多种逆问题中,不仅性能优于传统单变量模型并接近深度学习正则化方法,还兼具训练数据需求少、参数少、速度快、可解释性强以及拥有理论收敛保证等优势。

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

本文提出了 Kernel VICReg,一种将 VICReg 自监督学习目标引入再生核希尔伯特空间(RKHS)的新框架,通过核化损失函数中的方差、不变性和协方差项,在无需显式映射的情况下实现非线性特征学习,从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

本文提出了一种面向腿式机器人的决策驱动语义对象探索方法,通过置信度校准的语义证据仲裁、受控增长的语义拓扑记忆以及语义效用驱动的亚目标选择机制,在无需稠密几何重建的情况下,将噪声语义观测转化为稳定可执行的探索决策,从而显著提升了开放世界中的探索性能。

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs