Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artículo propone un nuevo método basado en modelos de difusión para la segmentación de instancias camufladas de vocabulario abierto (OVCIS), que fusiona características visuales y textuales para superar los desafíos de la segmentación de objetos ocultos y permitir la detección de clases no vistas previamente, con aplicaciones en vigilancia y monitoreo de vida silvestre.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

El artículo presenta a Merlin, un modelo fundacional de visión-idioma tridimensional entrenado sin anotaciones manuales en un vasto conjunto de datos de tomografías computarizadas abdominales, que supera a los modelos existentes en una amplia gama de tareas diagnósticas, pronósticas y de generación de informes, demostrando una alta generalización en múltiples instituciones.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Este trabajo presenta TrashFuzz, un algoritmo de fuzzing de caja negra que genera escenarios realistas de adversarios al manipular la ubicación de objetos comunes en el borde de la carretera para engañar a los sistemas de percepción de vehículos autónomos y provocar violaciones de leyes de tránsito, demostrando su eficacia al inducir infracciones en 15 de 24 leyes probadas en el sistema Apollo.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Este estudio presenta una evaluación a gran escala de 326 modelos de clasificación de imágenes que analiza nueve dimensiones de calidad más allá de la precisión, revelando que los modelos de visión-lingüística y el aprendizaje auto-supervisado mejoran significativamente estas propiedades y proponiendo la métrica QUBA para clasificar y recomendar modelos según necesidades específicas.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG