Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Este trabajo presenta SSLA-Det, un modelo de detección de objetos basado en cámaras de eventos que utiliza la atención lineal espacialmente dispersa para lograr un estado de la técnica en precisión y reducir la computación por evento en más de 20 veces, resolviendo así el compromiso entre latencia y rendimiento en arquitecturas asíncronas.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

El artículo presenta TaPD, un marco unificado y adaptable que utiliza destilación progresiva de conocimiento y un módulo de relleno temporal para mejorar significativamente la predicción de trayectorias en vehículos autónomos, especialmente cuando la información histórica de observación es variable o extremadamente corta.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

El artículo presenta NOVA, un nuevo paradigma de autoregresión de vocabulario abierto que utiliza modelos de lenguaje grandes para reformular el seguimiento de múltiples objetos 3D como una tarea de generación de secuencias semánticas, logrando mejoras significativas en la generalización de categorías desconocidas y la consistencia de identidad en entornos de conducción autónoma.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

El artículo presenta HiPP-Prune, un marco de poda estructurada jerárquica para modelos de visión y lenguaje que optimiza la asignación de recursos mediante un vector de preferencias del usuario y una señal de sensibilidad visual para lograr un equilibrio controlable entre la utilidad de la tarea, la robustez ante alucinaciones y la eficiencia de compresión.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

El artículo presenta StrSR, un marco de destilación adversaria de un solo paso que utiliza regularización espectral y de trayectoria para superar las limitaciones de los métodos existentes y lograr un rendimiento superior en la super-resolución de imágenes del mundo real mediante transformadores de difusión.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Este artículo presenta OccNL, el primer benchmark para la predicción de ocupación semántica 3D bajo ruido de etiquetas, y propone DPR-Occ, un marco robusto que supera el colapso de los métodos existentes al generar supervisión fiable mediante razonamiento de etiquetas parciales de doble fuente, logrando así mejoras significativas en entornos dinámicos.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Este artículo propone un método de eliminación de artefactos en imágenes 3D de CBCT dental mediante modelos de difusión basados en puntuación perpendicular que operan en el dominio de las proyecciones para preservar las correlaciones tridimensionales y mejorar la calidad de la imagen.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

DEX-AR es un nuevo método de explicabilidad dinámica diseñado para modelos de visión-lingüística autoregresivos que genera mapas de calor 2D a nivel de token y secuencia mediante el filtrado dinámico de cabezas de atención y la agregación de explicaciones, logrando mejoras significativas en métricas de perturbación y segmentación.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

El artículo presenta WMoE-CLIP, un método de aprendizaje de prompts para la detección de anomalías en cero shots que mejora la generalización mediante un autoencoder variacional, una descomposición por wavelets para capturar características multiespectrales y un módulo de expertos mixtos, logrando un rendimiento superior en 14 conjuntos de datos industriales y médicos.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

El artículo presenta P-SLCR, un método no supervisado para la segmentación semántica de nubes de puntos que utiliza aprendizaje de estructura de prototipos y razonamiento consistente para lograr un rendimiento superior al de métodos totalmente supervisados como PointNet en conjuntos de datos como S3DIS.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Este estudio evalúa la capacidad de ChatGPT para generar pastiches de obras de arte contemporáneas, revelando mediante la participación de doce artistas que, aunque existen similitudes visuales, las creaciones de la IA carecen de dimensión, contexto e intención emocional, lo que demuestra la necesidad de utilizar métricas complementarias más allá de la simple transferencia de estilo.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

El artículo presenta WorldCache, un marco de caché que acelera los modelos de mundo basados en difusión mediante la predicción de tokens heterogéneos guiada por curvatura y un salto adaptativo priorizado por caos, logrando una aceleración de hasta 3.7 veces manteniendo una alta calidad en las simulaciones.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs