Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

El artículo presenta LFG, un marco de preentrenamiento sin etiquetas que utiliza videos de conducción en internet sin poses ni anotaciones para aprender representaciones unificadas de percepción autónoma mediante modelos maestros multimodales, logrando un rendimiento superior en tareas de planificación y predicción de movimiento.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D es un marco unificado de alimentación directa que reconstruye una representación 4D densa y explícita a partir de solo dos imágenes sin pose, estimando simultáneamente geometría 3D, movimiento y pose de la cámara mediante una representación compartida de Gaussianas 3D dinámicas que supera a los métodos anteriores en precisión y permite una interpolación 4D de alta fidelidad.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

El artículo presenta Dr. Seg, un marco de entrenamiento basado en GRPO diseñado específicamente para modelos de lenguaje visual grandes que aborda las limitaciones de los paradigmas de razonamiento en tareas de percepción mediante mecanismos de confirmación y recompensas estables, mejorando así el rendimiento en escenarios visuales complejos sin requerir modificaciones arquitectónicas.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

El artículo presenta AlignVAR, un marco de autoregresión visual globalmente consistente para la superresolución de imágenes que aborda la fragmentación espacial y la acumulación de errores mediante la autoregresión de consistencia espacial y la restricción de consistencia jerárquica, logrando una mayor coherencia estructural y fidelidad perceptual con una inferencia significativamente más rápida y menos parámetros que los enfoques basados en difusión.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

El artículo presenta Dr. Occ, un marco de predicción de ocupación 3D guiado por profundidad y regiones que utiliza un transformador de vista 2D-a-3D basado en MoGe-2 y un transformador de expertos adaptativo para resolver problemas de desalineación geométrica y desequilibrio espacial, logrando mejoras significativas en el rendimiento sobre el conjunto de datos Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

El artículo presenta MultiShadow, un enfoque basado en modelos de difusión que genera sombras físicamente plausibles y consistentes para múltiples objetos insertados en una escena mediante la integración de características espaciales densas y tokens de posición aprendidos, superando así las limitaciones de los métodos existentes enfocados en objetos individuales.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Los autores proponen un marco de traducción no emparejado basado en el Puente de Schrödinger Neuronal, enriquecido con emparejamiento de distribuciones guiado por difusión y regularizadores de preservación anatómica, para mejorar la calidad y el realismo de las imágenes de resonancia magnética cerebral de campo ultra bajo (64 mT) alineándolas con las de alto campo (3 T).

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

El artículo presenta TumorFlow, un marco generativo guiado por física que sintetiza secuencias de resonancia magnética cerebral tridimensionales realistas y temporalmente coherentes para visualizar la progresión y la infiltración del glioblastoma en pacientes específicos, combinando modelos de crecimiento biológico con aprendizaje profundo para mejorar la planificación del tratamiento y la generación de datos sintéticos.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Este artículo presenta un marco unificado de detección conjunta para lacunas y espacios perivasculares agrandados que, mediante mecanismos de atención cruzada inicializada en cero, pérdidas de consistencia topológica y calibración inferencial anatómica, supera el estado del arte en precisión y robustez al resolver los desafíos de interferencia de características y desequilibrio de clases en la enfermedad de los vasos sanguíneos cerebrales.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs