cs.CV 篇论文 | Gist.Science

Altitude-Aware Visual Place Recognition in Top-Down View

本文提出了一种无需额外硬件的纯视觉地景识别方法，通过分析地面特征密度估算相对高度并生成标准查询图像，从而在显著高度变化下显著提升了无人机在复杂环境中的定位精度与鲁棒性。

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

本文提出 DACESR 方法，通过引入基于退化选择策略的 Real Embedding Extractor (REE) 和条件特征调制器 (CFM)，将识别模型的高层语义信息融入基于 Mamba 的网络，从而有效提升了真实场景下图像超分辨率任务中保真度与感知质量的平衡能力。

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

本文提出了一种名为 SelfOccFlow 的端到端自监督方法，通过解耦静态与动态符号距离场并利用时间聚合及特征余弦相似度线索，在无需人工标注或外部光流监督的情况下实现了 3D 占据流预测。

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

本文提出了名为 Ref-Adv 的新型基准测试，通过引入具有强干扰项和复杂推理需求的指代表达式，揭示了当前多模态大语言模型在现有基准上表现优异但在真实视觉推理与定位任务中严重依赖捷径的缺陷。

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

该论文提出了一种名为 BUSD-Agent 的经验引导自适应级联多智能体框架，通过利用包含历史决策轨迹的记忆库进行检索增强，在乳腺超声筛查中动态调整决策策略，从而显著降低不必要的活检转诊率并提高诊断特异性。

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

本文提出了 ABPolicy，一种基于 B 样条控制点空间与异步流匹配机制的机器人策略，通过双向预测与重拟合优化解决了同步推理中的抖动与不连续问题，实现了平滑且实时的机器人操作。

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

本文提出了名为 SegMate 的高效 2.5D 多器官分割框架，通过融合非对称架构、注意力机制及多尺度特征融合等创新设计，在显著降低计算资源需求（计算量减少 2.5 倍、显存占用减少 2.1 倍）的同时，在 TotalSegmentator、SegTHOR 和 AMOS22 等多个数据集上实现了优于现有模型的分割精度与泛化能力。

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

该论文指出 CLIP 类模型在描述中添加错误细节时相似度反而可能上升的“半真”缺陷，并提出通过组件监督微调的 CS-CLIP 方法，显著提升了模型对实体和关系的细粒度理解能力与检索准确性。

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

本文提出了一种名为“基于拓扑的迁移性估计”的新框架，通过引入全局表示拓扑发散度、局部边界感知拓扑一致性和任务自适应融合三个核心组件，有效解决了现有指标难以捕捉医学密集预测任务拓扑复杂性的问题，从而在无需微调的情况下显著提升了医学基础模型排序的准确性。

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

本文提出了 GPU-SDF 框架，通过显式估计几何先验不确定性并引入边缘距离场与多视图一致性等互补约束，有效解决了神经隐式室内表面重建中细部结构恢复困难的问题。

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

该论文提出了基于真实室内视频构建的大规模多模态时空知识图谱 YE-KG 及检索增强模型 STE-VLN，通过融合显式事件记忆与视觉观测，有效解决了视觉语言导航任务中粗粒度指令下的长程推理难题。

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

该论文提出了 PointCoT 框架，通过构建包含分层思维链标注的大规模指令微调数据集 Point-Reason-Instruct，引导多模态大语言模型采用“先观察、再思考、后回答”的显式推理范式，从而有效解决 3D 点云理解中的几何幻觉问题并显著提升复杂推理任务的性能。

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

本文提出了一种结合并行注意力机制的双分支微表情特征提取网络，通过引入残差结构、Inception 模块及自适应融合机制，在 CASME II 数据集上实现了 74.67% 的识别准确率，显著优于现有方法。

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

本文提出了无需训练的 CC-VQA 方法，通过视觉为中心的上下文冲突推理和相关性引导的编解码机制，有效解决了知识型视觉问答中静态模型知识与动态检索信息之间的冲突问题，并在多个基准测试中取得了优于现有方法的性能。

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

本文提出了一种名为 GDA-YOLO11 的新型无遮挡实例分割模型，通过架构改进和非对称掩码损失优化，显著提升了柑橘采摘机器人对遮挡果实的感知能力与采摘成功率，实现了从感知到执行的高效集成。

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

SwitchCraft 提出了一种无需训练的多事件视频生成框架，通过事件对齐查询引导（EAQS）和自适应平衡强度求解器（ABSS）解决现有模型在处理多事件提示时场景混淆的问题，显著提升了生成视频的提示对齐度、事件清晰度及场景一致性。

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

本文提出了数值视觉思维链（NV-CoT）框架，通过将多模态大语言模型的推理动作空间从离散词汇扩展为连续欧几里得坐标，实现了仅用最小架构改动即可直接生成边界框坐标的精确区域定位与推理，显著提升了视觉推理的准确性与训练效率。

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

该论文提出了一种结合冻结 DINOv3 骨干网络与领土感知门控损失（TAGL）的框架，通过强制基底节与上基底节水平的临床一致性，在无需增加推理复杂度的情况下，显著提升了非对比 CT 图像中缺血性卒中分割及 ASPECTS 评分的准确性。

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

本文提出了一种基于结构化窗口分解与重组机制的体积分割策略，通过利用冻结的 2D DINOv3 基础特征来克服其维度限制，成功实现了新生儿脑 MRI 图像中海马体结构的 3D 分割。

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

本文提出了 SpikeTrack，这是一种基于脉冲神经网络的新型视觉跟踪框架，通过非对称时间步扩展、单向信息流及受神经推理启发的记忆检索模块，在显著降低能耗的同时实现了超越现有脉冲跟踪器并媲美传统人工神经网络跟踪器的精度。

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs