Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

O artigo apresenta o LFG, um modelo de pré-treinamento autônomo sem rótulos que utiliza vídeos de direção não estruturados da internet e um mecanismo de ensino multi-modal para aprender representações unificadas de geometria e movimento, superando métodos existentes em tarefas de planejamento e previsão sem a necessidade de dados anotados ou LiDAR.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

O artigo apresenta o DiffusionHarmonizer, um framework de aprimoramento generativo online que utiliza um aprimorador condicionado temporalmente derivado de modelos de difusão para transformar renderizações de reconstruções neurais imperfeitas em saídas fotorealistas e temporalmente consistentes, corrigindo artefatos e harmonizando a iluminação para simulações robóticas escaláveis.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

O artigo apresenta o Dr. Seg, um framework simples e plug-and-play baseado em GRPO que supera as limitações da transferência direta de paradigmas de raciocínio para percepção visual em Modelos de Linguagem Visuais, introduzindo mecanismos de confirmação e recompensas ranqueadas por distribuição para melhorar o desempenho em tarefas complexas como a segmentação.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

O artigo propõe o AlignVAR, um novo framework de super-resolução de imagem baseado em autoregressão visual que supera desafios de consistência global e acúmulo de erros através de componentes inovadores de coerência espacial e restrições hierárquicas, oferecendo resultados de alta fidelidade com inferência significativamente mais rápida e menor complexidade de parâmetros em comparação com métodos baseados em difusão.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

O artigo apresenta o PVT-GDLA, um decodificador baseado em Transformer que utiliza Atenção Linear Diferencial Portada (GDLA) para alcançar segmentação médica de alta fidelidade com complexidade linear, superando as limitações de custo computacional e diluição de atenção de modelos anteriores ao preservar bordas anatômicas precisas e dependências de longo alcance de forma eficiente.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

O artigo apresenta o IoUCert, um novo framework de verificação formal que supera as limitações existentes ao garantir a robustez de detectores de objetos baseados em âncoras, como SSD e YOLO, através de uma transformação de coordenadas que permite o cálculo de limites ótimos para a métrica de Interseção sobre União (IoU) sem degradação de precisão.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Este artigo propõe um framework unificado de detecção conjunta para lacunas e espaços perivascular dilatados (EPVS) que, ao empregar atenção cruzada inicializada com zero e estratégias de perda mista para superar a interferência de características e o desequilíbrio de classes, alcança desempenho superior ao estado da arte na detecção de lacunas e demonstra robustez em grandes coortes populacionais.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs