TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

El paper presenta TRACE, un marco que unifica el razonamiento generativo con el aprendizaje de representaciones discriminativas mediante la generación y compresión de cadenas de pensamiento, logrando así un nuevo estado del arte en la recuperación multimodal universal con capacidades de adaptación automática a la complejidad de la consulta y transferencia cero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

MoECLIP es un nuevo enfoque para la detección de anomalías sin entrenamiento previo que supera las limitaciones de los métodos actuales al utilizar una arquitectura de mezcla de expertos con adaptadores LoRA especializados por parche, regulados mediante separación ortogonal de características y una pérdida de marco equiangular, logrando un rendimiento superior en 14 conjuntos de datos industriales y médicos.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

El artículo presenta ProSMA-UNet, una arquitectura que reformula el gating de conexiones de salto como un problema de selección de características dispersas condicionado por el decodificador, utilizando un operador de proximidad 1\ell_1 para eliminar activaciones irrelevantes y lograr un rendimiento superior en tareas de segmentación médica, especialmente en escenarios 3D desafiantes.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Este estudio introduce un marco de evaluación contrafactual que revela que, aunque el aprendizaje por refuerzo basado solo en texto mejora la precisión en tareas de razonamiento médico multimodal, degrada la dependencia visual real y fomenta alucinaciones, lo que demuestra la necesidad de protocolos de evaluación que prioricen la fundamentación visual sobre la mera exactitud.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Este estudio analiza el impacto de diversos errores de localización en la calidad de las etiquetas para la construcción de mapas HD en línea, demostrando que los errores de orientación degradan el rendimiento del modelo más que los errores de posición y que la precisión disminuye de forma no lineal a medida que aumenta el ruido en los datos.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Este estudio presenta un enfoque novedoso basado en un Transformer Bayesiano de alta resolución y aprendizaje débilmente supervisado geográficamente ponderado que fusiona datos de Sentinel-1, RCM y AMSR2 para generar mapas de concentración de hielo marino a 200 metros en el Ártico con estimaciones de incertidumbre mejoradas.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

El artículo presenta PinCLIP, un enfoque de aprendizaje de representación visual multimodal a gran escala desarrollado por Pinterest que, mediante una arquitectura híbrida de Vision Transformer y objetivos de alineación innovadores, supera a los modelos existentes en tareas de recuperación y mejora significativamente el compromiso de los usuarios y la distribución de contenido nuevo.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs