TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

El paper presenta TREND, un método de aprendizaje no supervisado de representaciones 3D para percepción LiDAR que, a diferencia de enfoques previos, aprovecha la secuencia temporal mediante un esquema de incrustación recurrente y un campo neuronal temporal para predecir observaciones futuras y mejorar significativamente tareas de detección de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

El artículo presenta CLAP, un método de pre-entrenamiento no supervisado que combina muestreo de curvatura y aprendizaje de prototipos para aprender representaciones 3D fusionadas de imágenes y nubes de puntos, logrando mejoras significativas en tareas de percepción 3D en comparación con los métodos anteriores.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artículo propone un método de constancia de color multi-iluminante que utiliza una red neuronal convolucional de tres ramas para estimar mapas de iluminación a múltiples escalas y fusionarlos mediante un módulo de atención, logrando un rendimiento superior al estado del arte al abordar las limitaciones de los enfoques existentes que ignoran el impacto de las escalas de la imagen.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

Este artículo presenta TextCrafter, un marco de generación de texto visual complejo que integra mecanismos de aislamiento y atención selectiva mediante aprendizaje por refuerzo para lograr un rendimiento superior en la generación de texto preciso y sin alucinaciones, superando a modelos industriales a pesar de utilizar recursos computacionales significativamente menores.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

FermatSyn es un nuevo método para la síntesis de imágenes médicas multimodales que combina un codificador basado en SAM2, un módulo de muestreo residual jerárquico y una estrategia de escaneo en espiral de Fermat dentro de una arquitectura Mamba bidireccional para lograr una consistencia anatómica global y detalles locales de alta fidelidad, superando a los métodos actuales en métricas de calidad y utilidad clínica.

Feng Yuan2026-03-02⚡ eess

Cora: Correspondence-aware image editing using few step diffusion

Cora es un nuevo marco de edición de imágenes basado en difusión en pocos pasos que utiliza corrección de ruido consciente de la correspondencia y mapas de atención interpolados para lograr deformaciones no rígidas y modificaciones de objetos precisas, manteniendo la estructura, la textura y la identidad de la imagen original mejor que los métodos existentes.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs