Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

本文提出了一种基于 Grounding DINO 1.5、YOLOv11 和 SAM 2.1 的双流水线框架,通过零-shot 文本提示或轻量级监督微调实现鸟类图像分割,在 CUB-200-2011 数据集上显著超越了传统端到端模型,证明了提示驱动的基础模型在无需重新训练分割主干的情况下即可实现高精度分割。

Abhinav Munagala2026-03-11🤖 cs.AI

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R 提出了一种简单有效的训练方法,通过利用特权 4D 信息(3D 点轨迹预测)作为辅助任务,使视觉 - 语言 - 动作(VLA)模型在无需增加推理开销的情况下,隐式地习得世界动力学规律,从而显著提升了其在复杂操作任务中的物理感知与控制能力。

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

该论文提出了一种名为 MuCTaL 的轻量级多癌症肿瘤定位框架,通过在四种癌症数据上进行平衡训练,实现了在已知癌种及未见过的胰腺癌中均具备良好泛化能力的肿瘤区域检测,并构建了可部署的数字病理空间热图生成工作流。

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

本文提出了一种基于黑盒优化与语义同质化的系统性框架,在 CARLA 仿真中对比评估了 Dolphins、OmniDrive 和 LeapVAD 三种视觉语言模型架构在物理补丁攻击下的鲁棒性,揭示了当前自动驾驶 VLM 设计存在严重的安全漏洞及独特的架构脆弱性模式。

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

该论文提出了一种利用 Gemma 3 和 Qwen3-VL 等视觉语言基础模型,通过上下文学习从无人机遥感图像中直接生成植物仿真配置(JSON 格式)的新方法,旨在解决功能性结构植物模型在规模化部署中的复杂性瓶颈,并构建了首个针对农业数字孪生三维重建的评估基准。

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架,通过统一的检索增强大语言模型技术,将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”,显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI