V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

El artículo presenta V-Retrver, un marco de recuperación multimodal impulsado por evidencia que reformula el proceso como un razonamiento agencial interactivo, donde un modelo de lenguaje multimodal utiliza herramientas visuales externas para verificar activamente la información y superar las limitaciones de los enfoques puramente lingüísticos, logrando mejoras significativas en la precisión y fiabilidad del razonamiento.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Este estudio demuestra que, aunque los modelos fundacionales alcanzan una discriminación equivalente a los modelos específicos en la detección de lesiones intestinales por trauma abdominal, su menor especificidad se debe principalmente a la heterogeneidad de las patologías concurrentes en la clase negativa, lo que indica la necesidad de un entrenamiento específico antes de su implementación clínica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Este artículo presenta DCAG, un marco de edición de imágenes sin entrenamiento para Transformadores de Difusión (DiT) que, al manipular simultáneamente los canales de Clave y Valor para aprovechar su estructura de sesgo-delta, logra un control más preciso sobre la fidelidad de la edición en comparación con los métodos existentes que solo utilizan el canal de Clave.

Guandong Li2026-02-26🤖 cs.AI

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Los autores proponen un marco de aprendizaje múltiple (MIL) regularizado espacialmente que aprovecha las relaciones espaciales intrínsecas entre parches como señal de regularización independiente de las etiquetas para superar los desafíos de supervisión escasa en el análisis de imágenes de diapositivas completas, logrando mejoras significativas sobre los métodos actuales.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Este trabajo presenta cVMDx, un marco de predicción de trayectorias basado en modelos de difusión que utiliza muestreo DDIM para lograr una reducción de 100 veces en el tiempo de inferencia y una estimación robusta de incertidumbre multimodal, superando en precisión y eficiencia al modelo cVMD en el conjunto de datos highD.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

El artículo presenta RelA-Diffusion, un marco de difusión adversarial relativista que sintetiza imágenes de PET multi-rastreador a partir de resonancias magnéticas multimodales (T1 y T2-FLAIR) mediante una pérdida adversarial con penalización de gradiente, logrando una mayor fidelidad visual y cuantitativa que los métodos existentes para la evaluación neurológica.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

Este trabajo introduce WildSVG, un nuevo benchmark compuesto por conjuntos de datos naturales y sintéticos para evaluar la extracción de gráficos vectoriales escalables (SVG) a partir de imágenes reales, revelando que los modelos multimodales actuales aún tienen un rendimiento insuficiente en escenarios del mundo real pero que los métodos de refinamiento iterativo ofrecen una vía prometedora.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs