Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

El artículo presenta Ref-Adv, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento visual y fundamentación de los modelos de lenguaje multimodal en tareas de expresión de referencia, revelando que, a pesar de su alto rendimiento en conjuntos de datos existentes, estos modelos dependen en gran medida de atajos y carecen de un razonamiento genuino ante desafíos más rigurosos.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

El artículo presenta BUSD-Agent, un marco de agentes en cascada guiado por la experiencia que reduce las derivaciones innecesarias a biopsia en la detección de cáncer de mama mediante un proceso de decisión selectivo en dos etapas que utiliza un banco de memoria para adaptar dinámicamente las políticas de clasificación y diagnóstico basándose en casos históricos similares.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

El artículo presenta SegMate, un marco de trabajo 2.5D ligero y eficiente que integra arquitecturas asimétricas y mecanismos de atención para lograr un rendimiento de segmentación de múltiples órganos a nivel del estado del arte con una reducción significativa en los requisitos computacionales y de memoria, facilitando su despliegue en entornos clínicos con recursos limitados.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

El artículo presenta GPU-SDF, un marco de reconstrucción neural implícita para interiores que mejora la fidelidad de los detalles finos mediante la estimación explícita de la incertidumbre de los priores geométricos y la aplicación de restricciones complementarias, como un campo de distancia de bordes y una regularización de consistencia multivista, para optimizar la influencia de los priores en lugar de descartarlos.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

El artículo presenta CC-VQA, un método sin entrenamiento que mitiga los conflictos de conocimiento en la respuesta visual a preguntas basada en conocimiento mediante un razonamiento centrado en la visión y una codificación y decodificación guiadas por correlación, logrando un rendimiento superior en varios benchmarks.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este trabajo propone un marco de aprendizaje profundo que combina representaciones de modelos fundacionales con una pérdida de puerta consciente del territorio para mejorar la segmentación de infartos y la puntuación ASPECTS en TC sin contraste, logrando un rendimiento superior al integrar el razonamiento anatómico clínico en el entrenamiento.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Este trabajo propone una estrategia de segmentación volumétrica que extiende las representaciones fundacionales 2D de DINOv3 a imágenes de resonancia magnética cerebral neonatal mediante un mecanismo estructurado de desensamblaje y reensamblaje de ventanas, logrando recuperar la estructura anatómica tridimensional y alcanzar un puntaje Dice de 0.65 en la segmentación del hipocampo.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Este trabajo presenta MSVBench, el primer benchmark integral para la generación de videos multi-toma que introduce un marco de evaluación híbrido combinando modelos multimodales grandes y expertos, logrando una correlación del 94.4% con juicios humanos y proporcionando señales de supervisión escalables para alinear el rendimiento de los modelos con estándares humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

El artículo presenta MINT, un marco innovador de transferencia de conocimiento multimodal que alinea las representaciones del habla con un espacio de biomarcadores neurales derivados de resonancia magnética para permitir un cribado biológicamente fundamentado de la enfermedad de Alzheimer en etapas tempranas sin necesidad de neuroimagen durante la inferencia.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI