RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

El artículo presenta RnG, un Transformer unificado de avance que supera las limitaciones de los modelos de reconstrucción 3D existentes al inferir tanto la geometría visible como la oculta a partir de observaciones parciales mediante un mecanismo de atención causal guiado por la reconstrucción, logrando así un rendimiento de vanguardia en la generación de vistas nuevas y la reconstrucción 3D generalizable en tiempo real.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

AgilePruner es un estudio empírico que analiza las limitaciones de los métodos de poda de tokens visuales basados en atención y diversidad en los Modelos Grandes de Visión y Lenguaje, revelando que la diversidad conservada se correlaciona con alucinaciones y que el rendimiento óptimo depende de la complejidad de la imagen, lo que lleva al desarrollo de un mecanismo de poda adaptativa que mejora el rendimiento y reduce las alucinaciones.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

El desafío MAMA-MIA presenta un nuevo marco de evaluación a gran escala que utiliza datos de múltiples instituciones en Estados Unidos y Europa para superar las limitaciones de generalización y equidad de los modelos actuales de inteligencia artificial en la segmentación de tumores y la predicción de respuesta al tratamiento en resonancia magnética mamaria.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

El artículo presenta FoSS, un marco de doble rama que integra el razonamiento en el dominio de la frecuencia con modelos de espacio de estado selectivos para lograr predicciones de trayectoria de vanguardia en la conducción autónoma, equilibrando con eficiencia la captura de dependencias a largo plazo y la incertidumbre multimodal mientras reduce significativamente los costos computacionales y de parámetros.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Este trabajo propone un marco de aprendizaje multitarea para el análisis de ultrasonidos mamarios que supera las limitaciones de los enfoques convencionales mediante una interacción bidireccional a múltiples niveles entre decodificadores y un mecanismo de coordinación adaptativa basado en la incertidumbre, logrando así una segmentación y clasificación de lesiones más precisas y robustas.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Este estudio demuestra que el aprendizaje por refuerzo (RL) mejora principalmente la precisión y eficiencia de muestreo de los modelos de visión y lenguaje médicos cuando ya existe una base sólida de razonamiento obtenida mediante ajuste fino supervisado (SFT), proponiendo una estrategia de entrenamiento que combina ambos enfoques para lograr un alto rendimiento en diversos benchmarks médicos.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabajo presenta una evaluación comparativa que demuestra que, aunque los modelos de visión de vocabulario abierto ofrecen ventajas para la adaptación a nuevos desastres, el aprendizaje supervisado sigue siendo el enfoque más fiable para la segmentación semántica y la detección de objetos en escenas post-desastre cuando existen anotaciones específicas y se requiere precisión en objetos pequeños y bordes complejos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs