A Text-Guided Vision Model for Enhanced Recognition of Small Instances
Este artículo presenta un modelo de detección de objetos guiado por texto basado en una versión mejorada de YOLO-World, que sustituye la capa C2f por C3k2 para optimizar la identificación de objetos pequeños en imágenes de drones, logrando una mayor precisión y un diseño más ligero con menos parámetros y operaciones.