Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

该论文通过系统研究混合视觉编码器(MoVE)的融合设计,提出了一种名为 LEO 的轻量级架构,其采用独立投影器后融合、图块级序列交错及动态分块全局上下文等策略,在 11 个视觉语言基准测试和自动驾驶领域均展现出优于现有方法的性能与泛化能力。

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

这篇综述系统梳理了大型多模态语言模型在文献检索、研究构思与实验、内容生成、多模态创作及科学评估等五大关键环节中的应用,深入探讨了相关数据集、方法、评估策略、局限性及伦理风险,旨在为“人工智能驱动科学”(AI4Science)领域的新进者提供指南并推动未来系统的整合与发展。

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

该论文提出了名为 Sysformer 的新方法,通过训练一个轻量级 Transformer 模型在输入嵌入空间中动态自适应地优化系统提示,从而在不微调冻结大语言模型参数的前提下,显著提升了模型对有害提示的拒绝率以及对安全提示的遵循度,并有效抵御了复杂的越狱攻击。

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI