cs.CV 篇论文 | Gist.Science

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

本文提出了首个面向多镜头视频生成的综合基准 MSVBench，通过引入分层脚本与混合评估框架，不仅揭示了当前模型缺乏世界建模能力的局限，还验证了其评估结果与人类判断的高度一致性，并展示了其作为监督信号提升模型性能的有效性。

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

本文提出了首个大规模美学指导数据集 AesGuide 及两阶段框架 Venus，通过增强多模态大语言模型的美学指导能力，显著提升了其在摄影建议生成与美学裁剪任务中的表现。

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

本文提出了 MINT 框架，通过三阶段跨模态知识迁移将 MRI 影像的生物标志物结构融入语音编码器，从而在无需神经影像设备的情况下，实现了基于生物基础且具备高可靠性的阿尔茨海默病早期筛查。

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

本文提出了名为 MIGM-Shortcut 的新方法，通过引入一个融合历史特征与采样 token 的轻量级模型来学习特征演化的平均速度场，从而在保持生成质量的同时显著加速了掩码图像生成模型（如在 Lumina-DiMOO 上实现超 4 倍加速），有效解决了现有缓存方案在激进加速下误差过大的问题。

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

本文提出了一种序数潜在扩散模型，通过将糖尿病视网膜病变的严重程度建模为连续标量而非独立类别，成功生成了具有更高视觉真实性和临床一致性的眼底图像，有效捕捉了疾病进展的连续谱系。

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

本文提出了一种名为 DeBiasLens 的可解释性模型无关框架，利用稀疏自编码器在无需社会属性标签的情况下定位并选择性抑制视觉 - 语言模型中与社会偏见相关的神经元，从而在保留语义知识的同时有效缓解社会偏见。

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

SR3R 提出了一种前馈框架，通过直接从稀疏低分辨率视图预测高分辨率 3D 高斯泼溅表示，并引入高斯偏移学习与特征细化技术，显著提升了 3D 超分辨率的重建保真度、跨场景泛化能力及实时性。

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

本文提出了名为 SteerVAD 的干预框架，通过无梯度分析识别潜在异常专家并设计分层元控制器，对冻结多模态大语言模型的潜在表示流形进行动态各向异性缩放与校正，从而在仅需 1% 训练数据的情况下实现了无需全量微调的视频异常检测最先进性能。

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

本文提出了 GuardAlign，一种无需训练的防御框架，通过结合基于最优传输的图像安全检测与跨模态注意力校准策略，在无需额外计算成本的情况下显著提升了多模态大语言模型在复杂场景中的安全性，同时保持了其原有任务效用。

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

本文提出了一种名为自适应视觉增强（AIR）的无需训练的框架，通过基于原型的令牌压缩和最优传输引导的补丁强化机制，选择性地整合关键视觉信息以抑制背景干扰，从而在多模态大语言模型中有效缓解幻觉问题。

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

该论文提出了一种结合隐式缝纫图案与生成式扩散模型的统一框架，通过建立图像像素、UV 图案坐标与 3D 几何之间的映射关系，实现了从单张图像及视频中高保真、时序一致的 3D 服装重建，且在合成数据训练下仍能泛化至真实场景并优于现有方法。

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

本文提出了 Quant Experts (QE) 方法，通过结合针对全局误差的共享专家与针对特定 Token 局部误差的路由专家，实现了大视觉语言模型在无需重训练情况下的自适应误差补偿与高效量化。

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

本文提出了一种结合神经符号验证与 SMT 求解器的框架，通过将放射学报告自动形式化并验证诊断结论的逻辑必然性，有效解决了视觉语言模型在临床推理中存在的幻觉与逻辑不一致问题，从而显著提升了生成式临床助手的诊断可靠性。

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

本文提出了 AgenticOCR，一种将 OCR 从静态全量处理转变为查询驱动的按需提取的动态解析范式，通过智能识别并仅提取感兴趣区域，有效解决了视觉文档检索增强生成（RAG）中因页面级检索导致的上下文冗余与幻觉问题，从而显著提升了长文档理解的效率与准确性。

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

该论文提出了一种结合自适应修剪策略与 3D 高斯差分原语的紧凑化 3D 高斯泼溅方法，通过动态优化修剪时机及利用正负密度联合建模，在显著减少高斯数量（最高达 90%）的同时保持了甚至提升了渲染质量。

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

cs.CV