Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1
本文提出了一种基于 Grounding DINO 1.5、YOLOv11 和 SAM 2.1 的双流水线框架,通过零-shot 文本提示或轻量级监督微调实现鸟类图像分割,在 CUB-200-2011 数据集上显著超越了传统端到端模型,证明了提示驱动的基础模型在无需重新训练分割主干的情况下即可实现高精度分割。