cs.CV artículos | Gist.Science

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Este trabajo presenta EgoTraj-Bench, el primer benchmark del mundo real para la predicción de trayectorias en visión ego-centrica bajo observaciones ruidosas, junto con BiFlow, un modelo de flujo de doble corriente que logra un rendimiento superior al estado del arte al denoizar observaciones históricas y predecir movimientos futuros mediante un mecanismo de anclaje ego.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Este artículo presenta un método de detección de nubes débilmente supervisado llamado SpecMCD, que combina características espectrales y una red neuronal profunda de escena a múltiples escalas para generar máscaras de nubes a nivel de píxel con mayor precisión, superando a otros métodos existentes en imágenes satelitales ópticas.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

El artículo presenta VidGuard-R1, el primer detector de videos generado por IA que utiliza optimización de políticas relativas grupales (GRPO) y modelos de lenguaje multimodal de razonamiento para superar las limitaciones de los métodos supervisados tradicionales, ofreciendo un rendimiento superior en cero disparos y explicaciones forenses basadas en la física.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Este trabajo presenta SpineMed, un ecosistema co-diseñado con cirujanos que incluye el dataset SpineMed-450k y la evaluación SpineBench, logrando avances significativos en el razonamiento por niveles vertebrales para el diagnóstico de trastornos de la columna mediante modelos de lenguaje visuales.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Este artículo presenta ExposureEngine, un sistema integral que utiliza cajas delimitadoras orientadas y un agente de lenguaje natural para cuantificar con precisión la visibilidad de patrocinadores en transmisiones deportivas, superando las limitaciones de los métodos tradicionales mediante un nuevo conjunto de datos de fútbol sueco.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

El artículo presenta TerraCodec, una familia de códecs neuronales preentrenados en datos de Sentinel-2 que superan a los métodos clásicos en compresión de imágenes multiespectrales y habilitan la eliminación de nubes mediante un modelo transformador temporal innovador.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artículo presenta XFactor, el primer modelo auto-supervisado sin geometría capaz de sintetizar nuevas vistas de forma verdaderamente transferible al desvincular la pose de la cámara del contenido de la escena mediante un esquema de aumento, demostrando que la transferibilidad es el criterio clave para validar la síntesis de nuevas vistas sin necesidad de sesgos inductivos 3D.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

El artículo presenta VIST3A, un marco general que combina modelos de generación de video latente con redes de reconstrucción 3D mediante técnicas de ensamblaje de modelos y ajuste por recompensa directa para lograr una generación de escenas 3D a partir de texto superior a los métodos anteriores.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Este artículo presenta DRBD-Mamba, un modelo eficiente y robusto para la segmentación de tumores cerebrales que utiliza un mapeo de curvas de relleno de espacio y módulos de fusión para superar las limitaciones computacionales de los modelos Mamba, logrando mejoras significativas en la precisión y una eficiencia 15 veces superior en comparación con los métodos actuales.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

El artículo presenta MSSR, un marco de doble agente que aborda los desafíos del razonamiento espacial en modelos visión-lenguaje mediante la construcción de un Conjunto Mínimo Suficiente (MSS) de información 3D, logrando así un rendimiento superior y trazas de razonamiento interpretables al eliminar información redundante y extraer datos esenciales mediante módulos especializados.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Este artículo presenta SceneCOT, un marco innovador que introduce el razonamiento de cadena de pensamiento fundamentado en escenas 3D junto con el primer dataset a gran escala de su tipo (SCENECOT-185K), logrando un rendimiento superior en preguntas y respuestas fundamentadas mediante un razonamiento paso a paso similar al humano.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

El paper presenta Grasp Any Region (GAR), un modelo que mejora la comprensión visual a nivel de región en MLLMs al integrar contextos globales y razonamiento composicional entre múltiples regiones, superando a modelos existentes en benchmarks especializados como GAR-Bench y demostrando capacidades transferibles al video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

El artículo presenta FLoC, un marco de compresión de tokens visuales sin entrenamiento y agnóstico al modelo que utiliza la función de ubicación de instalaciones y un algoritmo greedy perezoso para seleccionar de manera eficiente un subconjunto representativo de tokens, mejorando así la comprensión de videos largos en modelos multimodales grandes.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream es un sistema de generación de video en tiempo real que, mediante la destilación de un modelo bidireccional en un estudiante causal y el uso de atención deslizante con *attention sinks*, permite la creación de videos de duración ilimitada con control interactivo de movimiento a 29 FPS en una sola GPU, superando las limitaciones de latencia y acumulación de errores de los métodos anteriores.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

El artículo presenta SASG-DA, un método de aumento de datos basado en difusión que utiliza representaciones semánticas y un muestreo consciente de la dispersión para generar muestras de señales electromiográficas superficiales (sEMG) fieles y diversas, mejorando así significativamente el reconocimiento de gestos y la generalización en comparación con métodos existentes.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

El artículo presenta DeiTFake, un modelo de detección de deepfakes basado en DeiT que utiliza una estrategia de entrenamiento progresivo en dos etapas con aumentos de complejidad creciente, logrando una precisión del 99,22% y superando los métodos actuales en el conjunto de datos OpenForensics.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Este artículo presenta un método totalmente automático para generar datos etiquetados y extraer imágenes de ultrasonido de fotografías de monitores sin anotación humana, eliminando la dependencia del formato DICOM y permitiendo la clasificación de vistas cardíacas con una precisión equilibrada de 0,79.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

DAP es un planificador autoregresivo basado en tokens discretos que, mediante la predicción conjunta de semántica BEV y trayectorias del vehículo junto con un ajuste fino por aprendizaje por refuerzo, logra un rendimiento superior en la conducción autónoma con una arquitectura compacta y escalable.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

El artículo propone CCSD, un marco de auto-distilación compositiva multimodal que mejora la segmentación robusta de tumores cerebrales ante la ausencia de modalidades de MRI mediante una arquitectura compartida-específica y estrategias de distilación jerárquica y progresiva.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

El artículo presenta FlashCache, un marco de compresión de caché KV multimodal que utiliza un enfoque guiado por el dominio de la frecuencia para identificar y preservar las salidas atípicas (outliers), logrando una reducción significativa de la memoria y una aceleración en la inferencia sin comprometer el rendimiento de los modelos.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

← Anterior Siguiente →