cs.CV artículos | Gist.Science

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artículo propone un método de transferencia de representaciones de características a modelos ligeros mediante una nueva noción de "coherencia de percepción" que, al minimizar un nuevo tipo de pérdida basada en el ranking de disimilitudes, permite que el modelo estudiantil imite la percepción del modelo docente preservando la coherencia global sin necesidad de replicar su geometría absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

El artículo presenta U2-BENCH, el primer benchmark integral que evalúa el rendimiento de 23 modelos de lenguaje-visión grandes en la comprensión de imágenes de ultrasonido a través de múltiples tareas clínicas, revelando un buen desempeño en clasificación pero desafíos persistentes en el razonamiento espacial y la generación de lenguaje clínico.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

El artículo presenta TEMU-VTOFF, un marco de aprendizaje profundo basado en DiT que utiliza información multimodal (imagen, texto y máscara) para generar imágenes de productos de ropa de alta calidad y libres de ambigüedades a partir de fotos de personas vestidas, superando así las limitaciones de detalle y precisión de los métodos existentes en la tarea de "virtual try-off".

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Los autores proponen un nuevo códec de video neuronal para fotogramas B que mejora la compresión mediante un autoencoder de movimiento interactivo de doble rama y una fusión temporal selectiva, logrando una reducción de tasa de bits del 10% frente a los métodos más avanzados y un rendimiento comparable al estándar H.266/VVC.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artículo presenta la Distancia de Características de Percepción (PCD), una nueva métrica que incorpora la incertidumbre estocástica de los algoritmos de percepción para evaluar la estabilidad y robustez de los sistemas de conducción autónoma en condiciones dinámicas, validada mediante el nuevo conjunto de datos SensorRainFall que demuestra su superioridad sobre las métricas tradicionales.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabajo demuestra que mejorar los modelos de visión y lenguaje médicos mediante la incorporación de imágenes de referencia sanas y prompts comparativos, junto con un ajuste fino supervisado ligero, incrementa significativamente el rendimiento diagnóstico y la eficiencia de la muestra al imitar la práctica clínica de diagnóstico comparativo.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabajo presenta un nuevo marco de reconstrucción hiperespectral multiimagen (MI-HSR) que aprovecha las cámaras de smartphones con filtros espectrales, respaldado por el primer conjunto de datos específico (Doomer) y un módulo de alineación ligero, logrando una estimación espectral un 30% más precisa que las cámaras RGB convencionales y mejorando un 5% adicional la calidad de los métodos actuales.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Este artículo presenta SCINet, un marco innovador para el aprendizaje multietiqueta parcial que integra conocimiento semántico de co-ocurrencia mediante un módulo de promotor bi-dominante y una fusión de modalidades cruzadas para mejorar la alineación semántica y la identificación de relaciones ambiguas entre etiquetas e instancias.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

El modelo MoVieS presenta un enfoque unificado y extremadamente rápido que reconstruye escenas dinámicas 4D a partir de videos monoculares en un segundo, permitiendo simultáneamente la síntesis de vistas, la reconstrucción geométrica y el seguimiento de puntos mediante primitivas gaussianas alineadas con píxeles.

Chenguo Lin, Yuchen Lin, Panwang Pan + 5 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

El artículo presenta Winsor-CAM, un método eficiente y robusto que genera explicaciones visuales para redes neuronales convolucionales mediante la agregación de mapas de gradiente de todas las capas y su ajuste mediante Winsorización, permitiendo a los usuarios controlar el nivel de detalle semántico y logrando un rendimiento superior en localización y fidelidad frente a técnicas existentes en dominios como la salud y la visión por computadora.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI

DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

El artículo propone DEFNet, una red de fusión profunda basada en evidencia para la evaluación ciega de la calidad de imágenes que mejora el rendimiento mediante la optimización multitarea, una estrategia de fusión de información confiable y una estimación avanzada de incertidumbre.

Yiwei Lou, Yuanpeng He, Rongchao Zhang + 3 more2026-02-24⚡ eess

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Este trabajo presenta LRR-Bench, un nuevo benchmark sintético que demuestra que, a pesar del rendimiento humano casi perfecto, los modelos de visión y lenguaje actuales aún luchan significativamente para comprender relaciones espaciales absolutas y movimientos en 3D, revelando una brecha crítica en estas capacidades.

Fei Kong, Jinhao Duan, Kaidi Xu + 3 more2026-02-24🤖 cs.AI

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

El artículo presenta "Follow-Your-Shape", un marco sin entrenamiento ni máscaras que logra ediciones de imagen precisas y controladas de formas mediante un Mapa de Divergencia de Trayectoria y una inyección programada de KV, superando las limitaciones de los modelos existentes en transformaciones estructurales y preservando el fondo, todo ello validado por el nuevo benchmark ReShapeBench.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Este proyecto presenta una herramienta de asistencia en tiempo real que utiliza redes neuronales convolucionales entrenadas con el conjunto de datos Sign Language MNIST para traducir gestos de lenguaje de señas capturados por webcam en texto y voz sintética, facilitando así la comunicación y la integración social de personas con discapacidades auditivas y del habla.

Brandone Fonya, Clarence Worrell2026-02-24💻 cs

Collaborative Multi-Modal Coding for High-Quality 3D Generation

El artículo presenta TriMM, el primer modelo generativo 3D nativo de tipo feed-forward que utiliza un código colaborativo multi-modal (RGB, RGBD y nubes de puntos) junto con supervisión auxiliar para generar activos 3D de alta calidad y gran detalle geométrico y textural, logrando un rendimiento competitivo incluso con conjuntos de datos de entrenamiento reducidos.

Ziang Cao, Zhaoxi Chen, Liang Pan + 1 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Este estudio presenta FLUID, un conjunto de datos de trayectorias de alta granularidad y un marco de procesamiento ligero basado en drones que captura conflictos densos y comportamientos interactivos en intersecciones urbanas señalizadas, ofreciendo recursos valiosos para la investigación en conducción autónoma y modelado de comportamiento de tráfico.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Este estudio propone un marco basado en IA que utiliza datos multimodales de redes sociales para analizar y comparar la percepción turística con la realidad física en doce barrios históricos de Shanghái, revelando brechas entre la experiencia visualizada en línea y el entorno urbano real para informar la gestión patrimonial y el diseño urbano.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

MOGS es un marco de trabajo de Splatting Gaussiano 3D monocular que, en lugar de depender de costosos sensores LiDAR, utiliza semántica de imágenes y puntos métricos de estructura a partir del movimiento (SfM) para generar profundidad densa y lograr una representación eficiente y de alta calidad de grandes escenas.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Este artículo demuestra que los filtros aprendidos en redes profundas de tipo ConvNeXt pueden modelarse y aproximarse eficazmente mediante filtros de espacio de escala discretos derivados de la teoría de campos de escala, validando así la hipótesis de los "8 filtros maestros" como representaciones ideales de los receptores espaciales.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Este artículo presenta un método de calibración espacial-temporal ultra rápido y de código abierto para sistemas IMU-cámara que, al utilizar una representación de estado en tiempo discreto en lugar de continuo, elimina los altos costos computacionales de los métodos existentes sin sacrificar la precisión.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

← Anterior Siguiente →