cs.CV artículos | Gist.Science

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Este trabajo presenta LRR-Bench, un nuevo benchmark sintético que demuestra que, a pesar del rendimiento humano casi perfecto, los modelos de visión y lenguaje actuales aún luchan significativamente para comprender relaciones espaciales absolutas y movimientos en 3D, revelando una brecha crítica en estas capacidades.

Fei Kong, Jinhao Duan, Kaidi Xu + 3 more2026-02-24🤖 cs.AI

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

El artículo presenta "Follow-Your-Shape", un marco sin entrenamiento ni máscaras que logra ediciones de imagen precisas y controladas de formas mediante un Mapa de Divergencia de Trayectoria y una inyección programada de KV, superando las limitaciones de los modelos existentes en transformaciones estructurales y preservando el fondo, todo ello validado por el nuevo benchmark ReShapeBench.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Este proyecto presenta una herramienta de asistencia en tiempo real que utiliza redes neuronales convolucionales entrenadas con el conjunto de datos Sign Language MNIST para traducir gestos de lenguaje de señas capturados por webcam en texto y voz sintética, facilitando así la comunicación y la integración social de personas con discapacidades auditivas y del habla.

Brandone Fonya, Clarence Worrell2026-02-24💻 cs

Collaborative Multi-Modal Coding for High-Quality 3D Generation

El artículo presenta TriMM, el primer modelo generativo 3D nativo de tipo feed-forward que utiliza un código colaborativo multi-modal (RGB, RGBD y nubes de puntos) junto con supervisión auxiliar para generar activos 3D de alta calidad y gran detalle geométrico y textural, logrando un rendimiento competitivo incluso con conjuntos de datos de entrenamiento reducidos.

Ziang Cao, Zhaoxi Chen, Liang Pan + 1 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Este estudio presenta FLUID, un conjunto de datos de trayectorias de alta granularidad y un marco de procesamiento ligero basado en drones que captura conflictos densos y comportamientos interactivos en intersecciones urbanas señalizadas, ofreciendo recursos valiosos para la investigación en conducción autónoma y modelado de comportamiento de tráfico.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Este estudio propone un marco basado en IA que utiliza datos multimodales de redes sociales para analizar y comparar la percepción turística con la realidad física en doce barrios históricos de Shanghái, revelando brechas entre la experiencia visualizada en línea y el entorno urbano real para informar la gestión patrimonial y el diseño urbano.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

MOGS es un marco de trabajo de Splatting Gaussiano 3D monocular que, en lugar de depender de costosos sensores LiDAR, utiliza semántica de imágenes y puntos métricos de estructura a partir del movimiento (SfM) para generar profundidad densa y lograr una representación eficiente y de alta calidad de grandes escenas.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Este artículo demuestra que los filtros aprendidos en redes profundas de tipo ConvNeXt pueden modelarse y aproximarse eficazmente mediante filtros de espacio de escala discretos derivados de la teoría de campos de escala, validando así la hipótesis de los "8 filtros maestros" como representaciones ideales de los receptores espaciales.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Este artículo presenta un método de calibración espacial-temporal ultra rápido y de código abierto para sistemas IMU-cámara que, al utilizar una representación de estado en tiempo discreto en lugar de continuo, elimina los altos costos computacionales de los métodos existentes sin sacrificar la precisión.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Este trabajo presenta RangeSAM, el primer marco que adapta el modelo visual fundacional SAM2 a la proyección de rango para la segmentación de nubes de puntos LiDAR, logrando un rendimiento competitivo en SemanticKITTI mediante modificaciones arquitectónicas que aprovechan la eficiencia de las técnicas 2D y confirman el potencial de los modelos fundacionales para la percepción 3D.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Este estudio evalúa y combina diversas métricas de similitud representacional, demostrando que la integración de sus facetas complementarias mediante la Fusión de Redes de Similitud permite una clasificación más precisa de modelos artificiales y una reconstrucción más clara de la jerarquía funcional del sistema visual en datos neuronales.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

El paper presenta WAVE, el primer modelo de incrustaciones basado en LLM que unifica texto, audio y video en un espacio de representación común mediante una fusión jerárquica de características y entrenamiento multitarea, logrando un estado del arte en recuperación cruzada y generación de incrustaciones sensibles a instrucciones.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

El artículo presenta CMT (Consistency Mid-Training), un marco de entrenamiento intermedio que estabiliza y acelera significativamente el aprendizaje de modelos de mapas de flujo como los Modelos de Consistencia y el Flujo Medio, logrando resultados de vanguardia con una reducción drástica en el tiempo de cómputo y los datos necesarios en comparación con los métodos anteriores.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

El artículo presenta AlignTok, un método de tres etapas que alinea codificadores visuales preentrenados con tokenizadores para modelos de difusión, logrando una generación de imágenes más rápida y semánticamente rica que los enfoques tradicionales de VAE.

Bowei Chen, Sai Bi, Hao Tan + 6 more2026-02-24💻 cs

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

El artículo presenta SAGE, un pipeline de entrenamiento unificado que mejora el reconocimiento visual de lugares mediante la exploración adaptativa de grafos espaciales-visuales, la agregación de características locales y la minería de muestras difíciles, logrando resultados de vanguardia en múltiples benchmarks con un enfoque eficiente en parámetros.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

Flower: A Flow-Matching Solver for Inverse Problems

El artículo presenta Flower, un solucionador para problemas inversos lineales que utiliza un modelo de flujo preentrenado en un procedimiento iterativo de tres pasos para lograr reconstrucciones consistentes con las mediciones y aproximar el muestreo del posterior bayesiano, logrando un rendimiento de vanguardia con una configuración de hiperparámetros uniforme.

Mehrsa Pourya, Bassam El Rawas, Michael Unser2026-02-24🤖 cs.LG

VIRTUE: Visual-Interactive Text-Image Universal Embedder

El artículo presenta VIRTUE, un nuevo modelo de incrustación universal texto-imagen que integra capacidades de interacción visual para seleccionar regiones específicas, logrando un rendimiento superior en tareas universales y en el nuevo benchmark SCaR de recuperación de descripciones basado en objetos y escenas.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu + 2 more2026-02-24🤖 cs.AI

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

El artículo presenta RewardMap, un marco de aprendizaje por refuerzo multi-etapa que supera el problema de las recompensas escasas en el razonamiento visual de alta precisión mediante un diseño de recompensas sensible a la dificultad y una estrategia de entrenamiento escalonada, logrando mejoras significativas en modelos de lenguaje multimodal.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

El artículo presenta OBS-Diff, un marco de poda en un solo paso y sin entrenamiento que adapta el algoritmo clásico Optimal Brain Surgeon a los modelos de difusión mediante una construcción de Hessiana consciente del tiempo y una estrategia de poda secuencial, logrando una aceleración significativa en la inferencia con una degradación mínima en la calidad visual.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

El artículo presenta EDJE, un codificador conjunto discriminativo eficiente que precalcula y comprime tokens visuales para permitir un reordenamiento a gran escala de pares imagen-texto con alto rendimiento y bajo costo computacional, superando las limitaciones de almacenamiento y velocidad de los modelos anteriores.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

← Anterior Siguiente →