Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Este trabajo propone un marco eficiente para la detección de anomalías no supervisada que utiliza un modelo autorregresivo espacial sobre las incrustaciones de DINOv3 para capturar dependencias contextuales entre parches, logrando un rendimiento competitivo con una inferencia significativamente más rápida y un menor consumo de memoria en comparación con los métodos existentes.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

El artículo presenta VIRGi, un método innovador que permite el recolorado rápido y fotorealista de escenas modeladas con 3D Gaussian Splatting, preservando los efectos dependientes de la vista mediante una arquitectura que separa los componentes difusos y especulares, y que logra propagar ediciones de color en tiempo real a partir de una única imagen modificada.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

El artículo presenta URGT, un transformador de parches múltiples unificado que estima simultáneamente profundidad y normales de alta resolución a partir de una sola imagen monocular, superando las limitaciones de detalle local y consistencia global mediante atención cruzada y una estrategia de muestreo llamada GridMix para lograr resultados de vanguardia y una generalización robusta.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

El estudio presenta BRIGHT, el primer modelo fundacional especializado en patología mamaria que utiliza un marco colaborativo generalista-especialista entrenado con 210 millones de imágenes para superar a los modelos generalistas existentes en la mayoría de las tareas clínicas de oncología de mama, validando así un paradigma escalable para el desarrollo de modelos específicos por órgano.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Este trabajo presenta MoD-DPO, un marco de optimización de preferencias que mitiga las alucinaciones cruzadas en modelos de lenguaje multimodal mediante la regularización de la desconexión de modalidades y la penalización de los sesgos textuales, logrando así una mayor precisión perceptiva y resistencia a las alucinaciones.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

El artículo presenta ACE-Brain-0, un cerebro fundacional generalista que utiliza la inteligencia espacial como andamio universal para unificar el razonamiento espacial, la conducción autónoma y la manipulación robótica en un único modelo multimodal, logrando un alto rendimiento en 24 benchmarks mediante una nueva metodología de especialización y reconciliación.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

El artículo presenta COP-GEN, un transformador difusivo latente multimodal diseñado para generar distribuciones estocásticas de datos de observación terrestre que capturan la incertidumbre y variabilidad inherentes en las relaciones entre sensores, permitiendo traducciones flexibles entre modalidades y la completación de datos sin necesidad de reentrenamiento específico.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

El artículo introduce UniG2U-Bench, un benchmark integral que revela que, aunque los modelos multimodales unificados suelen tener un rendimiento inferior a sus contrapartes puramente visuales-lingüísticas en tareas generales, la generación intermedia mejora significativamente la comprensión en dominios específicos como la inteligencia espacial y el razonamiento multi-etapa, lo que subraya la necesidad de datos de entrenamiento más diversos y nuevos paradigmas.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR es una arquitectura novedosa que escala la reconstrucción 3D densa a secuencias de video extremadamente largas mediante un módulo de memoria híbrido que combina entrenamiento en tiempo de prueba y atención de ventana deslizante, logrando una reconstrucción globalmente consistente sin post-optimización y superando significativamente a los métodos anteriores.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG