cs.CV artículos | Gist.Science

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Este trabajo presenta SpineMed, un ecosistema co-diseñado con cirujanos que incluye el dataset SpineMed-450k y la evaluación SpineBench, logrando avances significativos en el razonamiento por niveles vertebrales para el diagnóstico de trastornos de la columna mediante modelos de lenguaje visuales.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Este artículo presenta ExposureEngine, un sistema integral que utiliza cajas delimitadoras orientadas y un agente de lenguaje natural para cuantificar con precisión la visibilidad de patrocinadores en transmisiones deportivas, superando las limitaciones de los métodos tradicionales mediante un nuevo conjunto de datos de fútbol sueco.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

El artículo presenta TerraCodec, una familia de códecs neuronales preentrenados en datos de Sentinel-2 que superan a los métodos clásicos en compresión de imágenes multiespectrales y habilitan la eliminación de nubes mediante un modelo transformador temporal innovador.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artículo presenta XFactor, el primer modelo auto-supervisado sin geometría capaz de sintetizar nuevas vistas de forma verdaderamente transferible al desvincular la pose de la cámara del contenido de la escena mediante un esquema de aumento, demostrando que la transferibilidad es el criterio clave para validar la síntesis de nuevas vistas sin necesidad de sesgos inductivos 3D.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

El artículo presenta VIST3A, un marco general que combina modelos de generación de video latente con redes de reconstrucción 3D mediante técnicas de ensamblaje de modelos y ajuste por recompensa directa para lograr una generación de escenas 3D a partir de texto superior a los métodos anteriores.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Este artículo presenta DRBD-Mamba, un modelo eficiente y robusto para la segmentación de tumores cerebrales que utiliza un mapeo de curvas de relleno de espacio y módulos de fusión para superar las limitaciones computacionales de los modelos Mamba, logrando mejoras significativas en la precisión y una eficiencia 15 veces superior en comparación con los métodos actuales.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

El artículo presenta MSSR, un marco de doble agente que aborda los desafíos del razonamiento espacial en modelos visión-lenguaje mediante la construcción de un Conjunto Mínimo Suficiente (MSS) de información 3D, logrando así un rendimiento superior y trazas de razonamiento interpretables al eliminar información redundante y extraer datos esenciales mediante módulos especializados.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Este artículo presenta SceneCOT, un marco innovador que introduce el razonamiento de cadena de pensamiento fundamentado en escenas 3D junto con el primer dataset a gran escala de su tipo (SCENECOT-185K), logrando un rendimiento superior en preguntas y respuestas fundamentadas mediante un razonamiento paso a paso similar al humano.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

El paper presenta Grasp Any Region (GAR), un modelo que mejora la comprensión visual a nivel de región en MLLMs al integrar contextos globales y razonamiento composicional entre múltiples regiones, superando a modelos existentes en benchmarks especializados como GAR-Bench y demostrando capacidades transferibles al video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

El artículo presenta FLoC, un marco de compresión de tokens visuales sin entrenamiento y agnóstico al modelo que utiliza la función de ubicación de instalaciones y un algoritmo greedy perezoso para seleccionar de manera eficiente un subconjunto representativo de tokens, mejorando así la comprensión de videos largos en modelos multimodales grandes.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream es un sistema de generación de video en tiempo real que, mediante la destilación de un modelo bidireccional en un estudiante causal y el uso de atención deslizante con *attention sinks*, permite la creación de videos de duración ilimitada con control interactivo de movimiento a 29 FPS en una sola GPU, superando las limitaciones de latencia y acumulación de errores de los métodos anteriores.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

El artículo presenta SASG-DA, un método de aumento de datos basado en difusión que utiliza representaciones semánticas y un muestreo consciente de la dispersión para generar muestras de señales electromiográficas superficiales (sEMG) fieles y diversas, mejorando así significativamente el reconocimiento de gestos y la generalización en comparación con métodos existentes.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

El artículo presenta DeiTFake, un modelo de detección de deepfakes basado en DeiT que utiliza una estrategia de entrenamiento progresivo en dos etapas con aumentos de complejidad creciente, logrando una precisión del 99,22% y superando los métodos actuales en el conjunto de datos OpenForensics.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Este artículo presenta un método totalmente automático para generar datos etiquetados y extraer imágenes de ultrasonido de fotografías de monitores sin anotación humana, eliminando la dependencia del formato DICOM y permitiendo la clasificación de vistas cardíacas con una precisión equilibrada de 0,79.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

DAP es un planificador autoregresivo basado en tokens discretos que, mediante la predicción conjunta de semántica BEV y trayectorias del vehículo junto con un ajuste fino por aprendizaje por refuerzo, logra un rendimiento superior en la conducción autónoma con una arquitectura compacta y escalable.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

El artículo propone CCSD, un marco de auto-distilación compositiva multimodal que mejora la segmentación robusta de tumores cerebrales ante la ausencia de modalidades de MRI mediante una arquitectura compartida-específica y estrategias de distilación jerárquica y progresiva.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

El artículo presenta FlashCache, un marco de compresión de caché KV multimodal que utiliza un enfoque guiado por el dominio de la frecuencia para identificar y preservar las salidas atípicas (outliers), logrando una reducción significativa de la memoria y una aceleración en la inferencia sin comprometer el rendimiento de los modelos.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

El artículo presenta MambaTAD, un modelo de detección de acciones temporales que integra modelos de espacio de estados con dos innovaciones clave, el módulo DMBSS y una cabeza de fusión de características globales, para superar los desafíos de la detección de acciones de larga duración en videos sin recortar.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

El artículo presenta ObAct, un marco novedoso de aprendizaje por imitación con visión activa que utiliza un sistema robótico de doble brazo con cámaras en la muñeca para construir dinámicamente una representación 3DGS, explorar virtualmente y mover el brazo observador a la posición óptima, logrando así políticas más robustas y eficaces que superan significativamente a los enfoques con cámaras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar es un método de vanguardia para la reconstrucción de avatares 3D de cabeza a partir de videos monoculares que supera las limitaciones de rigidez y expresividad de los enfoques existentes mediante un marco de unión suave adaptativo a la UV y una estrategia de control de densidad temporal que optimiza la captura de detalles finos y regiones frecuentemente ocluidas.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

← Anterior Siguiente →