Progressive Split Mamba: Effective State Space Modelling for Image Restoration

El artículo presenta PS-Mamba, un marco jerárquico de espacio de estados que mejora la restauración de imágenes mediante una partición geométrica que preserva la topología local y conexiones simétricas que mitigan la decadencia de información a larga distancia, superando así las limitaciones de los modelos Mamba y Transformers existentes.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

El artículo presenta SAGE, el primer modelo de lenguaje grande multimodal (MLLM) de extremo a extremo que procesa nubes de puntos sin codificadores preentrenados, tratando los datos 3D como un "idioma extranjero" mediante un tokenizador ligero y una estrategia de optimización de preferencias para superar las limitaciones de alineación semántica y eficiencia computacional de los métodos existentes.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Este trabajo presenta STONE, un conjunto de datos multi-modal a gran escala para la navegación de robots fuera de carretera que ofrece mapas de travesabilidad 3D generados automáticamente y percepciones sincronizadas de LiDAR, cámaras y radares para diversos entornos, estableciendo además un nuevo estándar de referencia para la predicción de travesabilidad.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won Choi2026-03-11💻 cs

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Este artículo evalúa la efectividad práctica del ajuste de índices impulsado por modelos de lenguaje grande (LLM) en comparación con el Asesor de Ajuste de Bases de Datos (DTA) de Microsoft, concluyendo que, aunque los LLM pueden identificar configuraciones superiores y ofrecer conocimientos intuitivos, su adopción en producción sigue siendo un desafío debido a su alta variabilidad de rendimiento y los costos de validación.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit Chaudhuri2026-03-11💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Este artículo presenta un marco de planificación de movimiento robusto para carreras autónomas multiagente que combina la identificación de brechas topológicas mediante GPs estocásticos y un MPC acelerado con un solver PTC, logrando una mejora significativa en tiempos de maniobra, tasas de adelantamiento y latencia computacional en la plataforma F1TENTH.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei Xie2026-03-11💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Este artículo propone un marco jerárquico basado en el ciclo Observe-Orient-Decide-Act (H-OODA) que integra la nube, el borde y los terminales mediante virtualización de funciones de red para mejorar la toma de decisiones autónoma y el control cooperativo de enjambres de UAVs en entornos inciertos.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu Han2026-03-11💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

El artículo presenta WESPR, un marco de trabajo rápido que integra la percepción geométrica y datos meteorológicos para predecir campos de viento locales y adaptar la planificación de trayectorias y el control de drones en tiempo real, logrando mejoras significativas en la estabilidad y precisión de vuelo frente a condiciones turbulentas.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap Tokekar2026-03-11💻 cs

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este trabajo propone un marco de aprendizaje métrico consciente de la geometría que utiliza descriptores de ángulos interarticulares invariantes para superar la variabilidad de dominio y lograr un reconocimiento de lenguaje de señas de pocos ejemplos entre idiomas con alta precisión, incluso en escenarios de recursos limitados.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

El artículo presenta PIM-SHERPA, un método puramente de software que resuelve las inconsistencias de atributos y diseño de memoria en sistemas con procesamiento en memoria (PIM) para habilitar una inferencia eficiente de modelos de lenguaje grandes (LLM) en dispositivos, logrando ahorros significativos de capacidad sin sacrificar el rendimiento.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon Yu2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

El artículo presenta TubeMLLM, un modelo fundacional unificado que combina comprensión estructurada y generación controlable mediante priores topológicos en lenguaje natural para superar las inconsistencias topológicas en el modelado de anatomía vascular, demostrando un rendimiento superior y una capacidad de transferencia cero-shot en múltiples conjuntos de datos y modalidades.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

El artículo presenta UniField, un marco unificado que mejora la calidad de las imágenes de resonancia magnética (MRI) al aprovechar modelos fundacionales 3D preentrenados y un mecanismo de rectificación espectral consciente del campo magnético para superar las limitaciones de generalización y escasez de datos, respaldado por la publicación del conjunto de datos multi-campo más grande hasta la fecha.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

El artículo presenta Flash-KMeans, una implementación optimizada para GPU que supera los cuellos de botella de E/S y contención de memoria mediante innovaciones como FlashAssign y sort-inverse update, logrando aceleraciones de hasta 17,9 veces respecto a las mejores soluciones existentes y habilitando el uso de k-means en sistemas en línea.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion Stoica2026-03-11💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Este artículo presenta MORLAX y MO-Playground, un algoritmo de aprendizaje por refuerzo multiobjetivo nativo de GPU y un entorno de simulación acelerado que permiten aproximar conjuntos de Pareto en minutos con una aceleración de 25 a 270 veces respecto a los enfoques tradicionales basados en CPU, facilitando así la resolución de problemas complejos de robótica multiobjetivo como la locomoción de un robot humanoide.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Este artículo presenta Geometric Semantic Decoupling (GSD), un módulo sin parámetros que mejora la generalización de los detectores de imágenes generadas por IA al eliminar las dependencias de priores semánticos dominantes y forzar al modelo a centrarse en evidencia forense invariante.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs