Modeling Trend Dynamics with Variational Neural ODEs for Information Popularity Prediction

El artículo presenta VNOIP, un nuevo método basado en ecuaciones diferenciales ordinarias neuronales variacionales con mecanismos de atención y saltos bidireccionales que modela explícitamente la dinámica temporal continua de las tendencias de popularidad para predecir con mayor precisión la difusión de información en redes sociales.

Yuchen Wang, Dongpeng Hou, Weikai Jing, Chao Gao, Xianghua Li, Yang LiuWed, 11 Ma💻 cs

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

SPAN-Nav es un modelo fundacional de extremo a extremo que mejora la navegación visión-idioma mediante la inyección de conciencia espacial 3D universal en el razonamiento de acciones, utilizando un token espacial compacto y un conjunto de datos masivo para lograr un rendimiento superior y una generalización robusta en diversos entornos.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

El artículo presenta PS-Mamba, un marco jerárquico de espacio de estados que mejora la restauración de imágenes mediante una partición geométrica que preserva la topología local y conexiones simétricas que mitigan la decadencia de información a larga distancia, superando así las limitaciones de los modelos Mamba y Transformers existentes.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

El artículo presenta SAGE, el primer modelo de lenguaje grande multimodal (MLLM) de extremo a extremo que procesa nubes de puntos sin codificadores preentrenados, tratando los datos 3D como un "idioma extranjero" mediante un tokenizador ligero y una estrategia de optimización de preferencias para superar las limitaciones de alineación semántica y eficiencia computacional de los métodos existentes.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Este trabajo presenta STONE, un conjunto de datos multi-modal a gran escala para la navegación de robots fuera de carretera que ofrece mapas de travesabilidad 3D generados automáticamente y percepciones sincronizadas de LiDAR, cámaras y radares para diversos entornos, estableciendo además un nuevo estándar de referencia para la predicción de travesabilidad.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Este artículo evalúa la efectividad práctica del ajuste de índices impulsado por modelos de lenguaje grande (LLM) en comparación con el Asesor de Ajuste de Bases de Datos (DTA) de Microsoft, concluyendo que, aunque los LLM pueden identificar configuraciones superiores y ofrecer conocimientos intuitivos, su adopción en producción sigue siendo un desafío debido a su alta variabilidad de rendimiento y los costos de validación.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Este artículo presenta un marco de planificación de movimiento robusto para carreras autónomas multiagente que combina la identificación de brechas topológicas mediante GPs estocásticos y un MPC acelerado con un solver PTC, logrando una mejora significativa en tiempos de maniobra, tasas de adelantamiento y latencia computacional en la plataforma F1TENTH.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Este artículo propone un marco jerárquico basado en el ciclo Observe-Orient-Decide-Act (H-OODA) que integra la nube, el borde y los terminales mediante virtualización de funciones de red para mejorar la toma de decisiones autónoma y el control cooperativo de enjambres de UAVs en entornos inciertos.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

El artículo presenta WESPR, un marco de trabajo rápido que integra la percepción geométrica y datos meteorológicos para predecir campos de viento locales y adaptar la planificación de trayectorias y el control de drones en tiempo real, logrando mejoras significativas en la estabilidad y precisión de vuelo frente a condiciones turbulentas.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este trabajo propone un marco de aprendizaje métrico consciente de la geometría que utiliza descriptores de ángulos interarticulares invariantes para superar la variabilidad de dominio y lograr un reconocimiento de lenguaje de señas de pocos ejemplos entre idiomas con alta precisión, incluso en escenarios de recursos limitados.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

El artículo presenta PIM-SHERPA, un método puramente de software que resuelve las inconsistencias de atributos y diseño de memoria en sistemas con procesamiento en memoria (PIM) para habilitar una inferencia eficiente de modelos de lenguaje grandes (LLM) en dispositivos, logrando ahorros significativos de capacidad sin sacrificar el rendimiento.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

El artículo presenta TubeMLLM, un modelo fundacional unificado que combina comprensión estructurada y generación controlable mediante priores topológicos en lenguaje natural para superar las inconsistencias topológicas en el modelado de anatomía vascular, demostrando un rendimiento superior y una capacidad de transferencia cero-shot en múltiples conjuntos de datos y modalidades.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

El artículo presenta UniField, un marco unificado que mejora la calidad de las imágenes de resonancia magnética (MRI) al aprovechar modelos fundacionales 3D preentrenados y un mecanismo de rectificación espectral consciente del campo magnético para superar las limitaciones de generalización y escasez de datos, respaldado por la publicación del conjunto de datos multi-campo más grande hasta la fecha.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs