cs.CV 篇论文 | Gist.Science

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

该论文提出了 SPEED，一种通过直接编辑模型参数并搜索“零空间”来实现的可扩展、精确且高效的扩散模型概念擦除方法，该方法结合三种互补策略在确保非目标概念生成质量的同时，仅需 5 秒即可擦除 100 个概念。

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

本文提出了一种基于多目标优化的模型无关评估框架，通过雷达图和测量表直观量化机器学习系统（特别是医学影像领域）中效用与公平性之间的权衡，并已在多个真实数据集上得到验证。

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

本文提出了一种目标感知视频扩散模型，通过引入编码目标空间信息的特殊令牌及针对性的交叉注意力损失，使模型能够根据文本指令生成演员与指定分割目标进行准确交互的视频，并成功应用于零样本 3D 人机交互运动合成与长视频内容创作。

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

本文提出了 AdaRank 框架，通过基于熵最小化的测试时自适应剪枝机制，动态剔除任务向量中导致干扰的奇异分量，从而在多种骨干网络和任务数量下实现了接近微调模型性能的卓越多任务模型合并效果。

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

该论文提出了一种利用基于数学符号定义的“分析概念”作为桥梁，将多模态大语言模型生成的常识知识与物理世界相连接，从而指导机器人实现通用且精准的关节物体操作的方法。

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

本文提出了一种名为 OSDM-MReg 的多模态遥感图像配准框架，该框架利用一步式非对齐目标引导条件扩散模型（UTGOS-CDM）将不同模态图像快速翻译至统一域，并结合多模态多尺度配准网络（MM-Reg）有效解决了 SAR 与光学图像间的大非线性辐射差异问题，显著提升了配准精度与效率。

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

本文提出了一种名为 VR-FuseNet 的混合深度学习模型，通过融合 VGG19 与 ResNet50V2 提取特征，并结合 SMOTE 和 CLAHE 等预处理技术处理来自五个数据集的异构眼底图像，实现了 91.824% 的糖尿病视网膜病变分类准确率，同时利用可解释性人工智能技术生成可视化解释以辅助临床诊断。

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

该论文通过灵长类动物丰度估算和鸽子头部姿态估计两个案例研究，论证了仅依赖机器学习指标不足以评估生态与生物领域视觉模型的实际效用，并呼吁在评估中引入能直接反映下游应用效果的特定指标。

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

本文提出了一种基于可解释人工智能的新方法，能够高效准确地将 Wasserstein 距离归因于数据子群、输入特征或可解释子空间等具体成分，从而深入解析数据集偏移与输运现象。

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

本文提出了动态不确定性与关系对齐（DURA）框架，通过关键特征选择器建模噪声不确定性并引入动态 Softmax 铰链损失函数，有效解决了基于文本的人物搜索中因在线数据噪声导致的检索性能下降问题。

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

该研究首次从理论上证明，经过对抗预训练的线性 Transformer 能够作为通用的鲁棒基础模型，仅通过干净示例的上下文学习即可在无需额外对抗训练的情况下，自适应地泛化到各种未见下游任务并实现鲁棒性。

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

本文提出了一种名为柔性加权 Chamfer 距离（FCD）的新型目标函数，通过解耦局部精度与全局完整性并采用非对称加权策略，有效解决了传统 Chamfer 距离导致的点云聚集与结构缺陷问题，在 ShapeNet、PCN 及 KITTI 等多个数据集上显著提升了点云补全的全局分布质量与结构完整性。

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes 是一种通过端到端强化学习训练的大规模视觉语言模型，它无需监督微调冷启动数据即可原生习得“用图像思考”的能力，通过主动感知策略将视觉信息深度融入推理过程，从而显著提升了模型在感知、推理、定位及数学任务上的表现。

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

本文提出了名为 GradPCA 的分布外（OOD）检测方法，该方法利用神经切线核（NTK）对齐诱导的梯度低秩结构，通过对梯度类均值进行主成分分析，在标准图像分类基准上实现了比现有方法更稳健的性能，并提供了理论框架以指导谱 OOD 检测器的设计。

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

本文提出了 DTR，一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法，旨在无需额外安全数据或图像转文本转换的情况下，有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Seek-CAD 是一种无需训练的本地化生成方法，它利用 DeepSeek-R1 结合视觉与思维链反馈进行自我优化，并基于 SSR 设计范式构建数据集，从而高效生成工业级 3D 参数化 CAD 模型。

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

本文提出了一种无需渐近假设的确定性投影概率核函数，用于高效的角度测试与相似度搜索，其实验结果表明该方法在近似最近邻搜索任务中的查询吞吐量比主流 HNSW 算法高出 2.5 至 3 倍。

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

该论文提出了 Point-MoE，一种基于混合专家（Mixture-of-Experts）架构的 3D 语义分割模型，它通过稀疏激活的专家网络和无监督路由机制，成功实现了在无需数据集标签的情况下对异构多源 3D 点云数据的大规模联合训练，显著提升了模型在已知及零-shot 场景下的性能。

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

本文针对分布匹配蒸馏（DMD）在大规模流匹配文本生成图像模型（如 SD 3.5 和 FLUX）上难以收敛的问题，提出了隐式分布对齐（IDA）和段内引导（ISG）方法，构建了名为 SenseFlow 的蒸馏框架，成功实现了在扩散模型和流匹配模型上的高效蒸馏与卓越性能。

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

该论文针对人脸活体检测泛化性不足的问题，提出了首个大规模视觉问答数据集 FaceCoT，并结合强化学习优化的描述模型与思维链增强渐进式学习策略（CEPL），显著提升了多模态大语言模型在人脸活体检测任务中的鲁棒性与可解释性。

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs