cs.CV 篇论文 | Gist.Science

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

本文提出了 ProFound，一种基于 5000 名患者超 22000 个 3D 多参数 MRI 体积数据自监督预训练的中规模前列腺专用视觉基础模型，其在癌症检测、分级、定位及分割等 11 项下游临床任务上的表现均优于或媲美现有的专用模型及医学视觉基础模型。

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

本文介绍了开源项目 BLOCK，这是一个利用大语言模型生成 3D 预览图并结合微调 FLUX.2 模型进行解码的双阶段管道，通过创新的 EvolveLoRA 渐进式训练策略，实现了从任意角色概念到像素级 Minecraft 皮肤的高效、稳定生成。

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

本文提出了 UniRain 统一图像去雨框架，通过基于检索增强生成（RAG）的数据集蒸馏技术筛选高质量训练样本，并结合非对称混合专家架构中的多目标重加权优化策略，实现了在复杂真实场景下对雨纹和雨滴等多种退化类型的高效泛化与鲁棒恢复。

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

本文提出了一种利用视觉基础模型进行自监督预训练的新方法，通过引入结构感知蒸馏损失来解决图像与事件流之间的语义失配问题，从而在无需大量标注的情况下实现了大规模、高密度的事件流表征学习，并显著提升了下游任务的性能。

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

本文提出了 Dual-Solver，一种通过可学习参数灵活调整预测类型、积分域及残差项的通用 ODE 求解器，旨在利用分类目标在低函数评估次数（NFE）下显著提升扩散模型的采样质量。

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

Phi-4-reasoning-vision-15B Technical Report

本文介绍了 Phi-4-reasoning-vision-15B 这一紧凑型开源多模态推理模型，通过展示其在架构设计、严格数据筛选与合成增强等方面的创新，证明了高质量数据与高效架构能使小模型在科学推理、数学理解及界面识别等任务上实现媲美大模型的卓越性能。

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

本文提出了 GeoSeg，这是一个无需训练且基于推理的遥感图像分割框架，它通过偏差感知坐标修正和双路线提示机制，有效解决了遥感领域缺乏通用推理分割方案及监督数据稀缺的难题，并配套发布了 GeoSeg-Bench 基准测试集。

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

本文提出了名为 RIVER 的实时视频交互基准，通过引入回顾记忆、实时感知和主动预测任务来填补现有视频大模型在实时交互方面的空白，并针对长时记忆与未来感知等缺陷提出了通用改进方案。

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

本文提出了一种基于面孔错觉（pareidolia）的表征级诊断框架，通过评估六类视觉模型在模糊视觉证据下的检测、定位、不确定性与偏差表现，揭示了不同模型架构（如视觉语言模型、纯视觉分类器及检测器）在歧义情境下截然不同的解释机制，表明模型在模糊条件下的行为主要受表征选择而非阈值控制，且低不确定性既可能源于安全抑制也可能源于过度解读。

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

本文提出了一种名为 SAFE 的两阶段框架，通过结合弱监督、对比学习和基于特征空间的集成推理，在部分临床监督下自动扩展稀疏的糖尿病视网膜病变病灶标注，从而显著提升了下游分类任务的诊断性能。

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

该论文提出了 DPAD 方法，通过强制模型生成描述性标题并利用其与上下文的语义对比来引入判别性感知，从而解决现有推理分割中推理链冗长且偏离目标的问题，显著提升了定位精度并缩短了推理长度。

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

本文提出了一种结合基于诊断多样性的数据采样策略与诊断令牌加权策略优化（DiTPO）的新框架，通过优先优化临床关键信息并提升数据质量，在显著减少训练样本需求的同时实现了放射学报告生成的最先进性能。

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

本文提出了一种名为体积定向扩散（VDD）的新方法，通过将生成轨迹锚定在确定性解剖共识先验上并仅预测 3D 边界残差场，有效解决了医学图像分割中多样性与保真度的权衡难题，从而在保持高精度分割的同时显著提升了不确定性量化能力并生成了符合解剖结构的置信度图。

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

本文提出了 DQE-CIR 方法，通过引入可学习属性权重以强化文本引导的视觉特征对齐，并结合目标相对负采样策略从“中间地带”筛选高信息量负样本，从而有效解决现有组合图像检索方法中的相关性抑制与语义混淆问题，显著提升了细粒度属性修改场景下的查询判别力与检索精度。

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

本文针对动态海底环境中长期视觉定位研究缺乏基准数据集和精确真值的问题，首次发布了涵盖多站点及长达六年跨度的海底数据集，提出了一种基于图像足迹的三维真值构建方法，并据此对八种先进视觉位置识别算法进行了基准测试，揭示了现有方法在该场景下的性能局限及传统距离阈值评估法的不足。

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

本文针对多编码器扩散模型（如 Stable Diffusion 3）中尚未被充分研究的后门攻击问题，提出了 MELT 方法，通过仅微调少于 0.2% 的参数（低秩适配器）并冻结预训练权重，成功实现了高效且有效的轻量级后门攻击。

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

该研究通过系统评估发现，在细胞级（40x40 像素）小图块病理图像分析中，当训练数据规模充足时，针对小图块优化的任务特定架构（如 CustomViT）在准确性和效率上均优于基础模型，且基础模型并未展现出更强的模糊鲁棒性。

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

cs.CV