cs.CV 篇论文 | Gist.Science

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

本文提出了一种基于 Grounding DINO 1.5、YOLOv11 和 SAM 2.1 的双流水线框架，通过零-shot 文本提示或轻量级监督微调实现鸟类图像分割，在 CUB-200-2011 数据集上显著超越了传统端到端模型，证明了提示驱动的基础模型在无需重新训练分割主干的情况下即可实现高精度分割。

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

本文提出了首个文档伪造检测零样本基准 DOCFORGE-BENCH，评估发现现有方法在真实部署场景下因伪造区域占比极低导致标准阈值严重失准，揭示了校准而非表征能力才是当前文档伪造检测面临的主要瓶颈。

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R 提出了一种简单有效的训练方法，通过利用特权 4D 信息（3D 点轨迹预测）作为辅助任务，使视觉 - 语言 - 动作（VLA）模型在无需增加推理开销的情况下，隐式地习得世界动力学规律，从而显著提升了其在复杂操作任务中的物理感知与控制能力。

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

本文综述了超低功耗边缘与片上传感器 AI 处理器的演进现状，并通过在 GAP9、STM32N6 和 Sony IMX500 三种代表性平台上对 PicoSAM2 模型的实证基准测试，揭示了不同架构在延迟、能效及能量延迟积方面的性能权衡，突显了片上传感器处理技术的成熟度与重要性。

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

该论文提出了 Granulon，一种基于 DINOv3 的多模态大语言模型，通过文本条件粒度控制器和自适应令牌聚合模块，实现了从像素级到粗粒度语义的动态自适应融合，显著提升了细粒度视觉理解能力并降低了幻觉。

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

该论文提出了一种面向 3D 高斯泼溅（3D-GS）的原生可解释水印框架，通过 Trio-Experts 模块与安全性预算感知门控机制实现载体选择与质量保护的解耦，在显著提升鲁棒性与图像质量的同时，利用解耦微调技术实现了水印嵌入位置与选择依据的透明化归因。

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

本文提出了具备显式反思机制的视觉生成智能体 VisionCreator-R1 及其反思 - 规划协同优化（RPCO）训练方法，通过解决强化学习中反思与规划优化的不对称性，使其在单图及多图任务基准测试中表现优于 Gemini2.5Pro。

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

该论文提出了一种基于计算机视觉和 YOLOv8 目标检测模型的智能停车分配系统，通过逆透视映射（IPM）融合多路摄像头数据来动态识别空车位，并利用 3D 笛卡尔坐标图模拟停车环境以引导用户，从而为高密度城市提供低成本、高效率的可持续停车解决方案。

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

该论文提出了一种名为 MuCTaL 的轻量级多癌症肿瘤定位框架，通过在四种癌症数据上进行平衡训练，实现了在已知癌种及未见过的胰腺癌中均具备良好泛化能力的肿瘤区域检测，并构建了可部署的数字病理空间热图生成工作流。

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR 提出了一种混合参考条件生成管道，支持通过静态图像或动态视频作为混合引导，并允许用户显式指定各元素的轨迹，从而实现对视频生成中复杂时空约束的细粒度组合控制。

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

本文提出了一种基于黑盒优化与语义同质化的系统性框架，在 CARLA 仿真中对比评估了 Dolphins、OmniDrive 和 LeapVAD 三种视觉语言模型架构在物理补丁攻击下的鲁棒性，揭示了当前自动驾驶 VLM 设计存在严重的安全漏洞及独特的架构脆弱性模式。

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

该论文提出了视觉查询分割（VQS）新任务及首个大规模基准 VQS-4K，并设计了基于 SAM 2 改进的 VQ-SAM 方法，旨在实现对未修剪视频中目标对象所有出现时刻的像素级精准定位。

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

该论文针对甲状腺超声多任务学习在跨中心域偏移下几何与纹理特征退化不一致的问题，提出了一种基于多核门控适配器（MKGA）的轻量级解码器方案，通过融合互补感受野与语义门控机制，有效提升了分割与恶性风险评估的跨中心鲁棒性。

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

本文提出了 MedCBR 框架，通过将临床指南融入视觉 - 语言模型与概念推理，实现了从医学图像分析到符合指南的专家级诊断推理的端到端可解释性提升。

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

该论文介绍了 MEGC2026 微表情挑战赛，旨在通过引入基于多模态大语言模型的微表情视频问答（ME-VQA）和长视频问答（ME-LVQA）两项新任务，推动微表情分析在复杂时空推理与多模态理解领域的研究进展。

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

本文提出了 TIDE，一种无需额外训练且无采样开销的文本引导动态外推方法，通过引入文本锚定机制和基于谱进展感知的动态温度控制，有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题，实现了任意分辨率和长宽比的图像生成。

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

该论文提出了一种利用 Gemma 3 和 Qwen3-VL 等视觉语言基础模型，通过上下文学习从无人机遥感图像中直接生成植物仿真配置（JSON 格式）的新方法，旨在解决功能性结构植物模型在规模化部署中的复杂性瓶颈，并构建了首个针对农业数字孪生三维重建的评估基准。

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架，通过统一的检索增强大语言模型技术，将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”，显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

该论文提出了 BiCLIP 框架，通过利用少量锚点样本学习跨域图像特征间的规范几何变换，以极简的参数量实现了多模态特征的对齐，并在多个基准测试中取得了最先进的零样本域适应性能。

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

该论文针对真实世界中音视频分布动态演变的挑战，首次提出了一个无样本的音视频分割持续学习基准，并设计了结合音频引导预融合条件与低秩锚定技术的 ATLAS 基线模型，以在避免灾难性遗忘的同时实现持续感知。

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess