Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

El artículo presenta "Follow-Your-Shape", un marco sin entrenamiento ni máscaras que logra ediciones de imagen precisas y controladas de formas mediante un Mapa de Divergencia de Trayectoria y una inyección programada de KV, superando las limitaciones de los modelos existentes en transformaciones estructurales y preservando el fondo, todo ello validado por el nuevo benchmark ReShapeBench.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Este estudio presenta FLUID, un conjunto de datos de trayectorias de alta granularidad y un marco de procesamiento ligero basado en drones que captura conflictos densos y comportamientos interactivos en intersecciones urbanas señalizadas, ofreciendo recursos valiosos para la investigación en conducción autónoma y modelado de comportamiento de tráfico.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Este estudio propone un marco basado en IA que utiliza datos multimodales de redes sociales para analizar y comparar la percepción turística con la realidad física en doce barrios históricos de Shanghái, revelando brechas entre la experiencia visualizada en línea y el entorno urbano real para informar la gestión patrimonial y el diseño urbano.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Este artículo demuestra que los filtros aprendidos en redes profundas de tipo ConvNeXt pueden modelarse y aproximarse eficazmente mediante filtros de espacio de escala discretos derivados de la teoría de campos de escala, validando así la hipótesis de los "8 filtros maestros" como representaciones ideales de los receptores espaciales.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Este artículo presenta un método de calibración espacial-temporal ultra rápido y de código abierto para sistemas IMU-cámara que, al utilizar una representación de estado en tiempo discreto en lugar de continuo, elimina los altos costos computacionales de los métodos existentes sin sacrificar la precisión.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Este trabajo presenta RangeSAM, el primer marco que adapta el modelo visual fundacional SAM2 a la proyección de rango para la segmentación de nubes de puntos LiDAR, logrando un rendimiento competitivo en SemanticKITTI mediante modificaciones arquitectónicas que aprovechan la eficiencia de las técnicas 2D y confirman el potencial de los modelos fundacionales para la percepción 3D.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Este estudio evalúa y combina diversas métricas de similitud representacional, demostrando que la integración de sus facetas complementarias mediante la Fusión de Redes de Similitud permite una clasificación más precisa de modelos artificiales y una reconstrucción más clara de la jerarquía funcional del sistema visual en datos neuronales.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

El artículo presenta CMT (Consistency Mid-Training), un marco de entrenamiento intermedio que estabiliza y acelera significativamente el aprendizaje de modelos de mapas de flujo como los Modelos de Consistencia y el Flujo Medio, logrando resultados de vanguardia con una reducción drástica en el tiempo de cómputo y los datos necesarios en comparación con los métodos anteriores.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

El artículo presenta SAGE, un pipeline de entrenamiento unificado que mejora el reconocimiento visual de lugares mediante la exploración adaptativa de grafos espaciales-visuales, la agregación de características locales y la minería de muestras difíciles, logrando resultados de vanguardia en múltiples benchmarks con un enfoque eficiente en parámetros.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

El artículo presenta RewardMap, un marco de aprendizaje por refuerzo multi-etapa que supera el problema de las recompensas escasas en el razonamiento visual de alta precisión mediante un diseño de recompensas sensible a la dificultad y una estrategia de entrenamiento escalonada, logrando mejoras significativas en modelos de lenguaje multimodal.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI