cs.CV 篇论文 | Gist.Science

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

OVGGT 是一种无需训练的框架，通过自选择性缓存和动态锚点保护技术，在保持恒定显存与计算成本的同时，实现了任意长度视频流的高精度 3D 几何重建。

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

该论文提出了一种基于“分割后识别”两阶段策略的开放词汇目标识别框架，通过结合 CLIP 与 CNN/MLP 特征对齐及 SVD 降维技术，在无需复杂重训练和人工标注的情况下，于多个基准数据集上实现了超越现有最先进方法的训练免费识别性能。

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

该论文提出了一种名为“骨骼到图像编码”（S2I）的新方法，通过将骨骼序列转换为类图像格式，成功利用大规模预训练视觉模型进行自监督骨骼表征学习，有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题，并在多个基准数据集上验证了其优越的泛化能力。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

该论文针对开放词汇目标检测模型在极端低比特量化下性能严重下降的问题，提出了一种结合分阶段优化与文本中心关系知识蒸馏的“课程关系量化感知训练”（CR-QAT）框架，通过逐步量化和关系结构迁移有效缓解了误差累积并保持了细粒度对齐，在 LVIS 和 COCO 零-shot 基准上显著优于现有方法。

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

本文提出了 PROBE，一种无需学习的 LiDAR 三维地点识别描述子，它通过将鸟瞰图（BEV）单元建模为伯努利随机变量并利用极坐标雅可比行列式解析地边缘化连续平移，实现了跨传感器泛化且无需针对特定数据集进行调优，在多个数据集上取得了优于现有手工描述子的性能。

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

本文提出了 ProCap 框架，通过从静态图像对比转向动态过程建模，利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程，从而生成更准确描述图像间差异及其发生方式的变化描述。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

本文针对现有无人机多目标跟踪基准缺乏复杂动态场景的问题，提出了包含 42 个序列和超 170 万标注框的 DynUAV 基准，该基准通过引入剧烈自运动、尺度变化及运动模糊等挑战，揭示了当前最先进跟踪器的局限性并推动了真实场景下的研究进展。

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

该论文提出了一种通过双分支架构和 Gram 正则化损失直接最小化训练与推理分布差异，并结合动漫特定标签网络与 SDXL 微调来实现高分辨率、解耦且可控的参考图素描上色新框架，从而在质量和可控性上达到最先进水平。

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

该论文提出了 HarvestFlex 系统，首次通过视觉 - 语言 - 动作（VLA）策略迁移，利用仅 3.71 小时的 VR 遥操作数据和多视角 RGB 感知，在无需深度云和显式几何校准的情况下，成功实现了温室草莓采摘任务中 74.0% 的成功率。

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

该报告通过与巴基斯坦 Sialkot 地区行业领袖合作，利用包含 4,414 张高分辨率图像的新数据集，结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构，开发自动化光学检测系统以识别和修复手术器械缺陷，从而提升制造标准并保障患者安全。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本文提出了 MM-ISTS，一种利用多模态视觉 - 文本大语言模型，通过双阶段编码机制、自适应查询特征提取及多模态对齐模块，有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

RePer-360 提出了一种基于自调制的畸变感知框架，通过轻量级几何对齐引导模块和自条件 AdaLN-Zero 机制，在保留预训练透视先验的同时实现了对全景深度估计的高效领域适配，仅需 1% 的训练数据即可显著超越标准微调方法。

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

该论文针对视觉 - 语言 - 动作（VLA）模型在指令与场景冲突时表现出的“语言盲视”问题，提出了无需训练且即插即用的指令引导注意力重校准（IGAR）方法，通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性，同时保持了基线任务性能。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

该论文提出了名为 RepKAN 的新型架构，通过融合 CNN 的结构效率与 KAN 的非线性表征能力，在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能，同时为遥感图像分类提供了可解释的物理推理机制。

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

本文提出了 EffectMaker，这是一个通过结合多模态大语言模型进行语义推理与扩散 Transformer 进行上下文视觉学习，从而实现无需针对特定效果微调即可生成高质量、可控且一致的定制化视觉特效的统一框架，并构建了包含 13 万条视频的大规模 EffectData 数据集以增强其泛化能力。

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

本文提出了 MOSIV 框架，通过利用视频中的几何目标指导可微模拟器直接优化连续的单物体材料参数，并发布了新的合成基准，从而有效解决了现有方法难以处理的多物体系统识别难题。

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion 提出了一种将跨视图空间预对齐与问答推理显式分离的两阶段框架，通过合成监督与 GRPO 强化学习训练，显著提升了视觉语言模型在多视图空间推理任务中的表现。

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

本文提出了 StruVis 框架，通过利用文本化的结构化视觉表示作为中间推理状态，使多模态大语言模型能够在无需生成中间图像的情况下进行“结构化视觉思考”，从而在降低计算成本的同时显著提升了基于推理的文本到图像生成性能。

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

本文提出了一种无需训练且即插即用的 Occlusion-Aware SORT (OA-SORT) 框架，通过引入遮挡感知模块、偏移量及偏差感知动量机制有效缓解部分遮挡导致的位置成本混淆问题，从而在多个基准数据集上显著提升了多目标跟踪的精度与鲁棒性。

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

该论文针对高维超列在图像分割中计算复杂度过高的问题，提出通过分层子采样构建稀疏超列并结合集成学习方法，在极低样本量（ $N \leq 20$ ）的脑肿瘤分割任务中显著优于传统多尺度 UNet 基线。

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

cs.CV