cs.CV artículos | Gist.Science

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Este artículo presenta FaceCoT, el primer conjunto de datos de preguntas y respuestas visuales a gran escala con razonamiento paso a paso para la detección de suplantación facial, junto con una estrategia de aprendizaje progresivo que mejora la generalización y la interpretabilidad de los modelos multimodales.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Este trabajo presenta OmniSpatial, un nuevo benchmark exhaustivo basado en la psicología cognitiva que evalúa el razonamiento espacial de los modelos de visión y lenguaje mediante cuatro categorías complejas, revelando sus limitaciones actuales y proponiendo estrategias como PointGraph y SpatialCoT para mejorar su rendimiento.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

El artículo presenta UniCUE, el primer marco unificado que genera directamente audio a partir de videos de habla con señales manuales en chino sin depender de texto intermedio, integrando tareas de reconocimiento y generación mediante un procesador visual consciente de la postura y un adaptador visio-fonético, todo respaldado por el nuevo conjunto de datos a gran escala UniCUE-HI.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Este estudio mejora la detección de especies fuera de distribución para los Grandes Cinco de África, demostrando que el método Nearest Class Mean (NCM) con características preentrenadas en ImageNet supera a los métodos actuales de detección de OOD al lograr mejoras significativas en métricas de rendimiento como AUPR y AUTC.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

El artículo propone un enfoque de aprendizaje meta-adaptativo que mejora el razonamiento visual en modelos multimodales grandes mediante la destilación de prompts suaves a partir de características visuales relevantes, superando significativamente a los métodos de aprendizaje en contexto y al ajuste fino eficiente en escenarios de pocos ejemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

El paper presenta BitVLA, un modelo nativo de 1 bit para la manipulación robótica que, mediante el diseño de arquitectura y una estrategia de cuantización y destilación, logra un rendimiento comparable a los modelos de precisión completa reduciendo la memoria en 11 veces y la latencia en 4.4 veces para su despliegue en dispositivos de borde.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

El artículo presenta PD²GS, un marco novedoso que utiliza la representación mediante Gaussian Splatting para lograr una descomposición precisa a nivel de partes y una deformación continua de objetos articulados sin supervisión manual, superando a los métodos anteriores en precisión geométrica y cinemática mientras introduce el nuevo conjunto de datos RS-Art para evaluación en escenarios reales.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

El artículo presenta VITA, un método de aprendizaje de funciones de valor sin ejemplos que mejora la generalización y el razonamiento temporal de los modelos visión-lenguaje mediante adaptación en tiempo de prueba y muestreo basado en disimilitud, logrando un rendimiento superior en tareas de manipulación robótica y en el aprendizaje por refuerzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

El trabajo presenta VINCIE, un modelo de difusión transformador entrenado exclusivamente en videos mediante tareas proxy que logra capacidades de edición de imágenes en contexto superiores al estado del arte, eliminando la necesidad de pipelines específicos y modelos expertos para la curación de datos.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Este trabajo presenta NIC-RobustBench, un kit de herramientas de código abierto que establece un marco de evaluación integral para analizar la robustez adversarial de los métodos de compresión de imágenes neuronales y su impacto en tareas posteriores, superando las limitaciones de las métricas tradicionales de eficiencia.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

El artículo presenta ConCM, un marco de aprendizaje incremental de pocas clases que mitiga el conflicto de conocimientos mediante una calibración de prototipos basada en memoria y una coincidencia de estructuras dinámicas, logrando un rendimiento superior en varios benchmarks sin requerir priores sobre el número de clases.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

El artículo presenta VisionDrop, un marco de poda sin entrenamiento que mejora la eficiencia de los modelos de lenguaje y visión grandes al seleccionar tokens visuales basándose únicamente en la atención intra-modal para evitar las desalineaciones cruzadas que limitan a los métodos anteriores, logrando reducciones significativas en latencia y FLOPs sin sacrificar el rendimiento.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

El artículo presenta EchoMimicV3, un marco eficiente de 1.3 mil millones de parámetros que unifica la animación humana multimodal y multitarea mediante estrategias innovadoras como "Soup-of-Tasks" y "Soup-of-Modals", logrando un rendimiento competitivo con una velocidad de inferencia rápida y menores requisitos computacionales.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

El artículo presenta CLiFT, un método de renderizado neuronal que comprime la información de escenas en "tokens de campo de luz" para lograr una representación eficiente y adaptable que permite ajustar el equilibrio entre calidad, velocidad y tamaño de datos según el presupuesto computacional.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

El artículo presenta SeC, un marco de segmentación de objetos en video impulsado por conceptos que utiliza modelos de visión-lingüaje grandes para construir representaciones de alto nivel y supera a los métodos actuales en el nuevo benchmark SeCVOS, logrando una mejora significativa de 11,8 puntos sobre SAM 2.1.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Este artículo presenta un marco unificado de gemelos digitales y robóticos que integra entornos de simulación y bancos de pruebas robóticos para validar de manera fiable y modular el rendimiento de los sistemas de guía, navegación y control (GNC) en operaciones de proximidad y vuelo en formación.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

El paper presenta MonoFusion, un método que reconstruye escenas dinámicas a partir de videos de pocas cámaras alineando reconstrucciones monoculares independientes para superar las limitaciones de los enfoques multivista densos y lograr una mayor calidad en la renderización de nuevas vistas.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Este artículo presenta HGTS-Former, un nuevo modelo basado en hipergrafos jerárquicos y Transformers que mejora el análisis de series temporales multivariadas mediante la captura de interacciones complejas, logrando un rendimiento superior en diversas tareas y en un nuevo conjunto de datos a gran escala para la fusión nuclear.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Este trabajo propone un nuevo método de simulación de resonancia magnética que agrupa isocromatos con propiedades idénticas para compartir cálculos, logrando acelerar los tiempos de procesamiento entre 3 y 72 veces en comparación con los métodos convencionales.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Este trabajo propone el uso de "Causal Delta Embeddings" para representar intervenciones en el espacio latente de manera invariante al escenario y esparsa, logrando así una mayor robustez fuera de distribución en la representación causal de imágenes sin necesidad de supervisión adicional.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

← Anterior Siguiente →

cs.CV