Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

El artículo presenta ReSeg-CLIP, un método de segmentación semántica de vocabulario abierto para teledetección que, sin necesidad de entrenamiento, combina un esquema de enmascaramiento jerárquico basado en SAM para corregir las interacciones del CLIP y una composición de modelos con un nuevo esquema de ponderación para lograr resultados de vanguardia en tres conjuntos de datos.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Este artículo propone un sistema de percepción 3D de 360 grados para vehículos autónomos que, mediante la comunicación V2X, la computación en la nube y un algoritmo de optimización dinámica que ajusta el punto de división de la carga y la cuantización según el ancho de banda, logra reducir la latencia en un 72 % y mejorar la precisión de detección hasta un 20 % en comparación con soluciones puramente locales o estáticas.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

El artículo presenta Ref-Adv, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento visual y fundamentación de los modelos de lenguaje multimodal en tareas de expresión de referencia, revelando que, a pesar de su alto rendimiento en conjuntos de datos existentes, estos modelos dependen en gran medida de atajos y carecen de un razonamiento genuino ante desafíos más rigurosos.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

El artículo presenta BUSD-Agent, un marco de agentes en cascada guiado por la experiencia que reduce las derivaciones innecesarias a biopsia en la detección de cáncer de mama mediante un proceso de decisión selectivo en dos etapas que utiliza un banco de memoria para adaptar dinámicamente las políticas de clasificación y diagnóstico basándose en casos históricos similares.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

El artículo presenta SegMate, un marco de trabajo 2.5D ligero y eficiente que integra arquitecturas asimétricas y mecanismos de atención para lograr un rendimiento de segmentación de múltiples órganos a nivel del estado del arte con una reducción significativa en los requisitos computacionales y de memoria, facilitando su despliegue en entornos clínicos con recursos limitados.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

El artículo presenta GPU-SDF, un marco de reconstrucción neural implícita para interiores que mejora la fidelidad de los detalles finos mediante la estimación explícita de la incertidumbre de los priores geométricos y la aplicación de restricciones complementarias, como un campo de distancia de bordes y una regularización de consistencia multivista, para optimizar la influencia de los priores en lugar de descartarlos.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

El artículo presenta CC-VQA, un método sin entrenamiento que mitiga los conflictos de conocimiento en la respuesta visual a preguntas basada en conocimiento mediante un razonamiento centrado en la visión y una codificación y decodificación guiadas por correlación, logrando un rendimiento superior en varios benchmarks.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs