Attention-aware Inference Optimizations for Large Vision-Language Models with Memory-efficient Decoding

该论文提出了名为 AttentionPack 的自适应优化框架,通过多注意力头压缩和特定 Token 的感知解压机制,显著降低了大型视觉语言模型在长上下文解码过程中的显存占用并提升了推理效率,同时保持了模型输出质量。

Fatih Ilhan, Gaowen Liu, Ramana Rao Kompella, Selim Furkan Tekin, Tiansheng Huang, Zachary Yahn, Yichang Xu, Ling Liu2026-03-26🤖 cs.LG

Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development

该研究探讨了利用大语言模型(如 Gemini 2.5)在医患问诊中生成基于循证医学指南的针对性问题,以辅助医生推理并减轻认知负担,实验结果表明尽管模型尚不完全可靠,但已能生成具有临床意义和指南相关性的问题,展现出在初级医疗场景中落地应用的潜力。

Zongliang Ji, Ziyang Zhang, Xincheng Tan, Matthew Thompson, Anna Goldenberg, Carl Yang, Rahul G. Krishnan, Fan Zhang2026-03-26💬 cs.CL

ChargeFlow: Flow-Matching Refinement of Charge-Conditioned Electron Densities

本文提出了 ChargeFlow 模型,这是一种基于流匹配技术的电荷条件电子密度 refinement 方法,它利用 3D U-Net 速度场将原子密度叠加态转化为 DFT 电子密度,在包含多种材料体系的基准测试中显著提升了电荷响应精度,并成功实现了下游化学分析(如 Bader 划分)的可靠应用。

Tri Minh Nguyen, Sherif Abdulkader Tawfik, Truyen Tran, Svetha Venkatesh2026-03-26🔬 cond-mat.mtrl-sci