GelSLAM: A Real-time, High-Fidelity, and Robust 3D Tactile SLAM System

El artículo presenta GelSLAM, un sistema de SLAM 3D en tiempo real que utiliza exclusivamente sensores táctiles para estimar con alta precisión la pose y reconstruir la forma de objetos durante la manipulación, superando las limitaciones de los métodos visuales al ofrecer una percepción espacial global y robusta incluso en objetos de baja textura.

Hung-Jui Huang, Mohammad Amin Mirzaee, Michael Kaess + 1 more2026-02-17💻 cs

Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models

Este trabajo presenta un marco novedoso basado en modelos de difusión multimodal guiados por CLIP que genera señales cerebrales (M/EEG) a partir de imágenes para prótesis visuales, alineando las representaciones de imágenes y descripciones textuales con las señales neuronales mediante mecanismos de atención cruzada y codificaciones espaciotemporales aprendibles.

Ganxi Xu, Zhao-Rong Lai, Yuting Tang + 5 more2026-02-17💻 cs

BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

El artículo presenta BEVTraj, un marco de predicción de trayectorias sin mapas que utiliza atención deformable y propuestas de objetivos dispersas para lograr un rendimiento comparable a los métodos basados en mapas de alta definición, ofreciendo mayor flexibilidad y robustez al procesar directamente datos de sensores en vista cenital.

Minsang Kong, Myeongjun Kim, Sang Gu Kang + 3 more2026-02-17💻 cs

Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Este trabajo presenta un marco de aprendizaje auto-supervisado multi-tarea con currículo (CMTSSL) que mejora el rendimiento de arquitecturas ligeras para la segmentación de imágenes hiperespectrales en satélites, logrando ganancias consistentes en tareas de clasificación mediante un diseño eficiente que combina modelado de imágenes enmascaradas y rompecabezas espaciales-espectrales.

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu2026-02-17🤖 cs.AI

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

El artículo presenta la Poda de Tokens en Pirámide (PTP), una estrategia sin entrenamiento que mejora la percepción visual de los Modelos Grandes de Lenguaje y Visión de alta resolución al reducir selectivamente los tokens visuales basándose en la saliencia regional y la relevancia de las instrucciones, logrando así una menor latencia y coste computacional con un rendimiento casi idéntico.

Yuxuan Liang, Xu Li, Xiaolei Chen + 4 more2026-02-17💻 cs

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

El artículo presenta DiffusionNFT, un nuevo paradigma de aprendizaje por refuerzo en línea que optimiza modelos de difusión directamente en el proceso forward mediante flujo de coincidencia, superando las limitaciones de métodos anteriores al eliminar la necesidad de estimación de verosimilitud y solvers específicos, lo que resulta en una eficiencia hasta 25 veces mayor y mejoras significativas en benchmarks como GenEval y SD3.5-Medium.

Kaiwen Zheng, Huayu Chen, Haotian Ye + 7 more2026-02-17🤖 cs.AI

UGround: Towards Unified Visual Grounding with Unrolled Transformers

El artículo presenta UGround, un paradigma unificado de grounding visual que supera las limitaciones de los enfoques actuales mediante el uso de Transformers desenrollados y una política de enmascaramiento estocástica para seleccionar dinámicamente capas intermedias y proporcionar señales espaciales explícitas, logrando así unificar tareas de segmentación desde expresiones de referencia hasta razonamiento complejo en un solo marco.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

El artículo presenta PAGCNet, un marco de estimación de profundidad panorámica que aborda el desafío de reconstruir el fondo en interiores complejos mediante decodificadores multitarea y un componente de resolución de profundidad de fondo consciente de la pose, el cual utiliza la pose de la cámara para generar una restricción geométrica que corrige y refina las predicciones iniciales, logrando un rendimiento superior en conjuntos de datos como Matterport3D, Structured3D y Replica.

Kanglin Ning, Ruzhao Chen, Penghong Wang + 3 more2026-02-17💻 cs

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Este trabajo presenta el primer marco escalable para la destilación de modelos de difusión de tiempo continuo en tareas de imagen y video a gran escala, introduciendo el modelo de consistencia regularizado por puntuación (rCM) que, mediante un kernel JVP compatible con FlashAttention-2 y un regularizador de destilación de puntuación, logra generar muestras de alta fidelidad en 1-4 pasos con una aceleración de 15x a 50x, superando las limitaciones de calidad y diversidad de métodos anteriores como sCM sin necesidad de ajuste GAN.

Kaiwen Zheng, Yuji Wang, Qianli Ma + 7 more2026-02-17🤖 cs.LG

Consistent text-to-image generation via scene de-contextualization

Este artículo presenta SDeC, un método de edición de incrustaciones de prompts sin entrenamiento que mitiga el desplazamiento de identidad en la generación de imágenes texto-a-imagen al suprimir adaptativamente las correlaciones latentes entre sujeto y escena, permitiendo así una preservación de identidad coherente en diversos contextos sin requerir conocimiento previo de las escenas objetivo.

Song Tang, Peihao Gong, Kunyu Li + 5 more2026-02-17💻 cs

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

El artículo presenta PRISMM-Bench, el primer benchmark basado en inconsistencias reales detectadas por revisores en artículos científicos multimodales, que evalúa la capacidad de los Modelos Multimodales Grandes (LMMs) para identificar, corregir y razonar sobre estas discrepancias, revelando un rendimiento significativamente bajo que subraya la necesidad de desarrollar asistentes científicos más confiables.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza + 4 more2026-02-17💻 cs