Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artículo propone un método de transferencia de representaciones de características a modelos ligeros mediante una nueva noción de "coherencia de percepción" que, al minimizar un nuevo tipo de pérdida basada en el ranking de disimilitudes, permite que el modelo estudiantil imite la percepción del modelo docente preservando la coherencia global sin necesidad de replicar su geometría absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

El artículo presenta TEMU-VTOFF, un marco de aprendizaje profundo basado en DiT que utiliza información multimodal (imagen, texto y máscara) para generar imágenes de productos de ropa de alta calidad y libres de ambigüedades a partir de fotos de personas vestidas, superando así las limitaciones de detalle y precisión de los métodos existentes en la tarea de "virtual try-off".

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artículo presenta la Distancia de Características de Percepción (PCD), una nueva métrica que incorpora la incertidumbre estocástica de los algoritmos de percepción para evaluar la estabilidad y robustez de los sistemas de conducción autónoma en condiciones dinámicas, validada mediante el nuevo conjunto de datos SensorRainFall que demuestra su superioridad sobre las métricas tradicionales.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabajo demuestra que mejorar los modelos de visión y lenguaje médicos mediante la incorporación de imágenes de referencia sanas y prompts comparativos, junto con un ajuste fino supervisado ligero, incrementa significativamente el rendimiento diagnóstico y la eficiencia de la muestra al imitar la práctica clínica de diagnóstico comparativo.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabajo presenta un nuevo marco de reconstrucción hiperespectral multiimagen (MI-HSR) que aprovecha las cámaras de smartphones con filtros espectrales, respaldado por el primer conjunto de datos específico (Doomer) y un módulo de alineación ligero, logrando una estimación espectral un 30% más precisa que las cámaras RGB convencionales y mejorando un 5% adicional la calidad de los métodos actuales.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

El artículo presenta Winsor-CAM, un método eficiente y robusto que genera explicaciones visuales para redes neuronales convolucionales mediante la agregación de mapas de gradiente de todas las capas y su ajuste mediante Winsorización, permitiendo a los usuarios controlar el nivel de detalle semántico y logrando un rendimiento superior en localización y fidelidad frente a técnicas existentes en dominios como la salud y la visión por computadora.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

El artículo presenta "Follow-Your-Shape", un marco sin entrenamiento ni máscaras que logra ediciones de imagen precisas y controladas de formas mediante un Mapa de Divergencia de Trayectoria y una inyección programada de KV, superando las limitaciones de los modelos existentes en transformaciones estructurales y preservando el fondo, todo ello validado por el nuevo benchmark ReShapeBench.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Este estudio presenta FLUID, un conjunto de datos de trayectorias de alta granularidad y un marco de procesamiento ligero basado en drones que captura conflictos densos y comportamientos interactivos en intersecciones urbanas señalizadas, ofreciendo recursos valiosos para la investigación en conducción autónoma y modelado de comportamiento de tráfico.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Este estudio propone un marco basado en IA que utiliza datos multimodales de redes sociales para analizar y comparar la percepción turística con la realidad física en doce barrios históricos de Shanghái, revelando brechas entre la experiencia visualizada en línea y el entorno urbano real para informar la gestión patrimonial y el diseño urbano.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Este artículo demuestra que los filtros aprendidos en redes profundas de tipo ConvNeXt pueden modelarse y aproximarse eficazmente mediante filtros de espacio de escala discretos derivados de la teoría de campos de escala, validando así la hipótesis de los "8 filtros maestros" como representaciones ideales de los receptores espaciales.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Este artículo presenta un método de calibración espacial-temporal ultra rápido y de código abierto para sistemas IMU-cámara que, al utilizar una representación de estado en tiempo discreto en lugar de continuo, elimina los altos costos computacionales de los métodos existentes sin sacrificar la precisión.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs