cs.CV artículos | Gist.Science

Pursuing Minimal Sufficiency in Spatial Reasoning

El artículo presenta MSSR, un marco de doble agente que aborda los desafíos del razonamiento espacial en modelos visión-lenguaje mediante la construcción de un Conjunto Mínimo Suficiente (MSS) de información 3D, logrando así un rendimiento superior y trazas de razonamiento interpretables al eliminar información redundante y extraer datos esenciales mediante módulos especializados.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Este artículo presenta SceneCOT, un marco innovador que introduce el razonamiento de cadena de pensamiento fundamentado en escenas 3D junto con el primer dataset a gran escala de su tipo (SCENECOT-185K), logrando un rendimiento superior en preguntas y respuestas fundamentadas mediante un razonamiento paso a paso similar al humano.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

El paper presenta Grasp Any Region (GAR), un modelo que mejora la comprensión visual a nivel de región en MLLMs al integrar contextos globales y razonamiento composicional entre múltiples regiones, superando a modelos existentes en benchmarks especializados como GAR-Bench y demostrando capacidades transferibles al video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

El artículo presenta FLoC, un marco de compresión de tokens visuales sin entrenamiento y agnóstico al modelo que utiliza la función de ubicación de instalaciones y un algoritmo greedy perezoso para seleccionar de manera eficiente un subconjunto representativo de tokens, mejorando así la comprensión de videos largos en modelos multimodales grandes.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream es un sistema de generación de video en tiempo real que, mediante la destilación de un modelo bidireccional en un estudiante causal y el uso de atención deslizante con *attention sinks*, permite la creación de videos de duración ilimitada con control interactivo de movimiento a 29 FPS en una sola GPU, superando las limitaciones de latencia y acumulación de errores de los métodos anteriores.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

El artículo presenta SASG-DA, un método de aumento de datos basado en difusión que utiliza representaciones semánticas y un muestreo consciente de la dispersión para generar muestras de señales electromiográficas superficiales (sEMG) fieles y diversas, mejorando así significativamente el reconocimiento de gestos y la generalización en comparación con métodos existentes.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

El artículo presenta DeiTFake, un modelo de detección de deepfakes basado en DeiT que utiliza una estrategia de entrenamiento progresivo en dos etapas con aumentos de complejidad creciente, logrando una precisión del 99,22% y superando los métodos actuales en el conjunto de datos OpenForensics.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Este artículo presenta un método totalmente automático para generar datos etiquetados y extraer imágenes de ultrasonido de fotografías de monitores sin anotación humana, eliminando la dependencia del formato DICOM y permitiendo la clasificación de vistas cardíacas con una precisión equilibrada de 0,79.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

DAP es un planificador autoregresivo basado en tokens discretos que, mediante la predicción conjunta de semántica BEV y trayectorias del vehículo junto con un ajuste fino por aprendizaje por refuerzo, logra un rendimiento superior en la conducción autónoma con una arquitectura compacta y escalable.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

El artículo propone CCSD, un marco de auto-distilación compositiva multimodal que mejora la segmentación robusta de tumores cerebrales ante la ausencia de modalidades de MRI mediante una arquitectura compartida-específica y estrategias de distilación jerárquica y progresiva.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

El artículo presenta FlashCache, un marco de compresión de caché KV multimodal que utiliza un enfoque guiado por el dominio de la frecuencia para identificar y preservar las salidas atípicas (outliers), logrando una reducción significativa de la memoria y una aceleración en la inferencia sin comprometer el rendimiento de los modelos.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

El artículo presenta MambaTAD, un modelo de detección de acciones temporales que integra modelos de espacio de estados con dos innovaciones clave, el módulo DMBSS y una cabeza de fusión de características globales, para superar los desafíos de la detección de acciones de larga duración en videos sin recortar.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

El artículo presenta ObAct, un marco novedoso de aprendizaje por imitación con visión activa que utiliza un sistema robótico de doble brazo con cámaras en la muñeca para construir dinámicamente una representación 3DGS, explorar virtualmente y mover el brazo observador a la posición óptima, logrando así políticas más robustas y eficaces que superan significativamente a los enfoques con cámaras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar es un método de vanguardia para la reconstrucción de avatares 3D de cabeza a partir de videos monoculares que supera las limitaciones de rigidez y expresividad de los enfoques existentes mediante un marco de unión suave adaptativo a la UV y una estrategia de control de densidad temporal que optimiza la captura de detalles finos y regiones frecuentemente ocluidas.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

El artículo presenta RadarVLM, un marco de visión-idioma que unifica la comprensión de escenas de radar mediante un sistema de subtítulos espaciales estructurados y un objetivo de alineación CLIP mejorado, logrando mejoras significativas en tareas de segmentación y generación de descripciones al aprender representaciones espacialmente fundamentadas.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

El artículo presenta PowerCLIP, un marco de pre-entrenamiento contrastivo que supera las limitaciones de los modelos anteriores al alinear exhaustivamente subconjuntos de regiones de imágenes con estructuras sintácticas del texto mediante agregadores no lineales eficientes, logrando así un rendimiento superior en tareas de clasificación y recuperación sin supervisión.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

El artículo presenta DPAC, un método de control adversarial para el muestreo de difusión que proyecta los gradientes sobre el espacio tangente definido por la geometría de la puntuación generativa para minimizar la divergencia KL en el espacio de trayectorias, preservando así la calidad de las muestras y mejorando métricas como el FID sin comprometer la tasa de éxito del ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Este artículo presenta un enfoque de ajuste fino eficiente en parámetros para modelos de visión-idioma en el diagnóstico de glaucoma, que utiliza una nueva función de pérdida diferenciable y técnicas de ponderación para reducir significativamente las disparidades diagnósticas entre grupos demográficos manteniendo una alta precisión general.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

El artículo presenta UniComp, un marco de compresión de video impulsado por la unicidad informativa que, mediante la fusión de grupos de cuadros, la asignación de tokens y la compresión espacial dinámica, maximiza la fidelidad de la información bajo presupuestos computacionales limitados superando a los métodos existentes.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

El artículo presenta NeuralRemaster, un método de difusión que preserva la fase de la imagen para generar resultados estructuralmente alineados y controlables en tareas como re-renderizado y mejora de simulaciones, sin requerir cambios arquitectónicos ni costos adicionales de inferencia.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

← Anterior Siguiente →