RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Este trabajo presenta RangeSAM, el primer marco que adapta el modelo visual fundacional SAM2 a la proyección de rango para la segmentación de nubes de puntos LiDAR, logrando un rendimiento competitivo en SemanticKITTI mediante modificaciones arquitectónicas que aprovechan la eficiencia de las técnicas 2D y confirman el potencial de los modelos fundacionales para la percepción 3D.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Este estudio evalúa y combina diversas métricas de similitud representacional, demostrando que la integración de sus facetas complementarias mediante la Fusión de Redes de Similitud permite una clasificación más precisa de modelos artificiales y una reconstrucción más clara de la jerarquía funcional del sistema visual en datos neuronales.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

El artículo presenta CMT (Consistency Mid-Training), un marco de entrenamiento intermedio que estabiliza y acelera significativamente el aprendizaje de modelos de mapas de flujo como los Modelos de Consistencia y el Flujo Medio, logrando resultados de vanguardia con una reducción drástica en el tiempo de cómputo y los datos necesarios en comparación con los métodos anteriores.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

El artículo presenta SAGE, un pipeline de entrenamiento unificado que mejora el reconocimiento visual de lugares mediante la exploración adaptativa de grafos espaciales-visuales, la agregación de características locales y la minería de muestras difíciles, logrando resultados de vanguardia en múltiples benchmarks con un enfoque eficiente en parámetros.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

El artículo presenta RewardMap, un marco de aprendizaje por refuerzo multi-etapa que supera el problema de las recompensas escasas en el razonamiento visual de alta precisión mediante un diseño de recompensas sensible a la dificultad y una estrategia de entrenamiento escalonada, logrando mejoras significativas en modelos de lenguaje multimodal.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

El artículo presenta el Modelo de Estado Específico (SSM), un marco innovador que unifica la detección y anticipación de acciones mediante la compresión de estados críticos, el aprendizaje de patrones de acción y la interacción cruzada temporal para modelar la intención del agente, logrando un rendimiento superior en diversos conjuntos de datos.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artículo presenta un marco de evaluación que demuestra cómo la complejidad de los prompts en modelos de texto-a-imagen reduce la diversidad y consistencia de las imágenes generadas, pero disminuye la brecha de distribución con datos reales, siendo la expansión de prompts la intervención que logra el mejor equilibrio entre diversidad, estética y fidelidad al dominio real.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

El artículo presenta SYNAPSE-Net, un marco unificado y adaptativo basado en codificadores convolucionales multi-stream y atención cruzada que logra una segmentación robusta y generalizable de lesiones cerebrales heterogéneas en múltiples modalidades de MRI, superando a modelos específicos de patología en diversos conjuntos de datos públicos.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Este artículo presenta el \textit{Rank-enhancing Token Fuser}, un marco de fusión teóricamente fundamentado que utiliza la rango efectivo para contrarrestar simultáneamente el colapso de características y el colapso de modalidades en la anticipación de acciones humanas, logrando un rendimiento superior al estado del arte mediante la integración de datos de profundidad y RGB.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG