cs.CV 篇论文 | Gist.Science

Openfly: A comprehensive platform for aerial vision-language navigation

本文提出了 OpenFly 平台，该平台集成了多种渲染引擎与自动化工具链，构建了包含 10 万条轨迹的大规模户外空中视觉语言导航基准数据集，并提出了关键帧感知的 OpenFly-Agent 模型，有效解决了该领域数据匮乏与仿真挑战。

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

本文提出了名为 LLaVE 的大语言与视觉嵌入模型框架，通过引入基于难度的加权对比学习有效解决了正负样本相似度分布重叠问题，在 MMEB 基准测试中实现了超越更大规模模型的最先进性能，并展现出优异的零样本泛化能力。

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

本文提出 Vision-R1，通过构建无需人工标注的高质量多模态思维链冷启动数据集，并结合渐进式思维抑制训练与 GRPO 强化学习策略，成功在大规模多模态数学数据上激发了模型的复杂推理能力，使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

本文提出了 SemHiTok，一种通过语义引导的层次化码本实现解耦训练的统一图像分词器，成功在多模态理解与生成任务中取得了像素重建与高层语义表征的最佳平衡。

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

Effective and Efficient Masked Image Generation Models

本文提出了一种统一的框架将掩码图像生成模型与掩码扩散模型相结合，并据此设计了高效且性能卓越的 eMIGM 模型，其在 ImageNet 生成任务中不仅超越了 VAR 等离散模型，还在显著减少函数评估次数的情况下达到了与顶级连续扩散模型相当甚至更优的效果。

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

该论文提出了 SPEED，一种通过直接编辑模型参数并搜索“零空间”来实现的可扩展、精确且高效的扩散模型概念擦除方法，该方法结合三种互补策略在确保非目标概念生成质量的同时，仅需 5 秒即可擦除 100 个概念。

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

本文提出了一种基于多目标优化的模型无关评估框架，通过雷达图和测量表直观量化机器学习系统（特别是医学影像领域）中效用与公平性之间的权衡，并已在多个真实数据集上得到验证。

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

本文提出了一种目标感知视频扩散模型，通过引入编码目标空间信息的特殊令牌及针对性的交叉注意力损失，使模型能够根据文本指令生成演员与指定分割目标进行准确交互的视频，并成功应用于零样本 3D 人机交互运动合成与长视频内容创作。

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

本文提出了 AdaRank 框架，通过基于熵最小化的测试时自适应剪枝机制，动态剔除任务向量中导致干扰的奇异分量，从而在多种骨干网络和任务数量下实现了接近微调模型性能的卓越多任务模型合并效果。

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

该论文提出了一种利用基于数学符号定义的“分析概念”作为桥梁，将多模态大语言模型生成的常识知识与物理世界相连接，从而指导机器人实现通用且精准的关节物体操作的方法。

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

本文提出了一种名为 OSDM-MReg 的多模态遥感图像配准框架，该框架利用一步式非对齐目标引导条件扩散模型（UTGOS-CDM）将不同模态图像快速翻译至统一域，并结合多模态多尺度配准网络（MM-Reg）有效解决了 SAR 与光学图像间的大非线性辐射差异问题，显著提升了配准精度与效率。

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

本文提出了一种名为 VR-FuseNet 的混合深度学习模型，通过融合 VGG19 与 ResNet50V2 提取特征，并结合 SMOTE 和 CLAHE 等预处理技术处理来自五个数据集的异构眼底图像，实现了 91.824% 的糖尿病视网膜病变分类准确率，同时利用可解释性人工智能技术生成可视化解释以辅助临床诊断。

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

该论文通过灵长类动物丰度估算和鸽子头部姿态估计两个案例研究，论证了仅依赖机器学习指标不足以评估生态与生物领域视觉模型的实际效用，并呼吁在评估中引入能直接反映下游应用效果的特定指标。

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

本文提出了一种基于可解释人工智能的新方法，能够高效准确地将 Wasserstein 距离归因于数据子群、输入特征或可解释子空间等具体成分，从而深入解析数据集偏移与输运现象。

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

本文提出了动态不确定性与关系对齐（DURA）框架，通过关键特征选择器建模噪声不确定性并引入动态 Softmax 铰链损失函数，有效解决了基于文本的人物搜索中因在线数据噪声导致的检索性能下降问题。

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

该研究首次从理论上证明，经过对抗预训练的线性 Transformer 能够作为通用的鲁棒基础模型，仅通过干净示例的上下文学习即可在无需额外对抗训练的情况下，自适应地泛化到各种未见下游任务并实现鲁棒性。

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

本文提出了一种名为柔性加权 Chamfer 距离（FCD）的新型目标函数，通过解耦局部精度与全局完整性并采用非对称加权策略，有效解决了传统 Chamfer 距离导致的点云聚集与结构缺陷问题，在 ShapeNet、PCN 及 KITTI 等多个数据集上显著提升了点云补全的全局分布质量与结构完整性。

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes 是一种通过端到端强化学习训练的大规模视觉语言模型，它无需监督微调冷启动数据即可原生习得“用图像思考”的能力，通过主动感知策略将视觉信息深度融入推理过程，从而显著提升了模型在感知、推理、定位及数学任务上的表现。

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

本文提出了名为 GradPCA 的分布外（OOD）检测方法，该方法利用神经切线核（NTK）对齐诱导的梯度低秩结构，通过对梯度类均值进行主成分分析，在标准图像分类基准上实现了比现有方法更稳健的性能，并提供了理论框架以指导谱 OOD 检测器的设计。

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

本文提出了 DTR，一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法，旨在无需额外安全数据或图像转文本转换的情况下，有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL