cs.CV artículos | Gist.Science

MICA: Multi-Agent Industrial Coordination Assistant

El artículo presenta MICA, un asistente de coordinación multiagente basado en percepción y voz que utiliza fusión de pasos adaptativa y verificación de seguridad para ofrecer asistencia industrial confiable y privada en entornos con recursos limitados.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Este trabajo introduce el marco ORIC y el conjunto de datos ORIC-Bench para evaluar y mejorar la capacidad de los Modelos de Lenguaje y Visión Grandes (LVLM) para reconocer objetos en contextos incongruos, demostrando que la incongruencia contextual es una fuente clave de incertidumbre y proponiendo técnicas de ajuste fino para mitigar estos errores.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Este trabajo presenta un sistema de navegación visual de enseñanza y repetición basado en cámaras de eventos que utiliza correlación cruzada en el dominio de Fourier para lograr una latencia de procesamiento de 2,88 ms y una navegación autónoma precisa en más de 3000 metros bajo diversas condiciones de iluminación.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Este trabajo demuestra que, aunque los benchmarks actuales de video no evalúan adecuadamente la comprensión auditiva, integrar codificadores de voz en modelos modernos de video-LLM mejora significativamente el rendimiento en tareas que requieren razonamiento audio-visual, ofreciendo una solución escalable y de código abierto.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Este artículo presenta FINS, un marco ligero que reconstruye superficies implícitas y campos de distancia firmes a partir de una sola imagen en segundos, superando a los métodos actuales en velocidad y precisión para aplicaciones de generación de movimiento en robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

El artículo presenta QuantVGGT, el primer marco de cuantización post-entrenamiento diseñado específicamente para los Transformers de Geometría Visual (VGGT) a gran escala, que supera los desafíos de las distribuciones de activación de cola pesada y la inestabilidad en la selección de muestras mediante técnicas innovadoras como la cuantización de grano fino suavizada dual y el muestreo diverso filtrado por ruido, logrando una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en hardware real manteniendo una precisión de reconstrucción superior al 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

El artículo presenta MATR, un transformador consciente del movimiento que mejora el seguimiento de múltiples objetos al predecir explícitamente los desplazamientos de los objetos para actualizar las consultas de rastro, logrando así resultados de vanguardia en diversos conjuntos de datos sin depender de datos externos.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

El artículo presenta GS-2M, un marco de optimización consciente de los materiales que utiliza 3D Gaussian Splatting para realizar una reconstrucción de mallas de alta fidelidad y resistente a superficies reflectantes mediante la optimización conjunta de atributos geométricos y una nueva estrategia de supervisión de rugosidad basada en variaciones fotométricas multivista, eliminando la necesidad de componentes neuronales complejos.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artículo presenta FAMDA, un marco de adaptación de dominio no supervisado que aprovecha modelos fundacionales de visión en un paradigma de auto-entrenamiento para generar pseudoetiquetas de alta calidad, permitiendo entrenar redes estudiantas ligeras y eficientes que alcanzan un rendimiento de vanguardia en tareas de predicción densa multiobjetivo para aplicaciones robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

El artículo presenta QuantSparse, un marco unificado que combina cuantización de modelos y esparcimiento de atención mediante destilación de atención saliente multiescala y reparametrización de atención dispersa de segundo orden para comprimir eficientemente los transformadores de difusión de video sin degradar significativamente su rendimiento.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

El artículo presenta DualFlow, un marco unificado y eficiente basado en flujo rectificado que genera movimientos 3D realistas y coordinados para dos personas condicionados a múltiples modalidades (texto, música y secuencias previas), mejorando la calidad, la sincronización y la fidelidad semántica mediante un módulo de generación aumentada por recuperación (RAG) y objetivos de alineación contrastiva.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabajo presenta PHASE-Net, un modelo ligero y teóricamente fundamentado en la física para la medición de fotopletismografía remota (rPPG) que supera las limitaciones de los métodos existentes mediante un sistema de atención armónica que combina un intercambiador axial de costo cero, un filtro espacial adaptativo y una TCN con compuertas para lograr un monitoreo fisiológico no invasivo robusto y eficiente.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

El artículo presenta LMOD+, un conjunto de datos y benchmark multimodal a gran escala en oftalmología que expande significativamente el trabajo previo para evaluar modelos de lenguaje grandes multimodales en tareas como diagnóstico, estadificación y predicción demográfica, con el objetivo de avanzar en aplicaciones de IA para reducir la carga global de enfermedades oculares.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

El artículo presenta REVEL, una nueva tarea de manipulación interactiva de videos en tiempo real que permite modificar cualquier elemento en cualquier momento, y propone DragStream, un método sin entrenamiento que corrige la deriva latente y mitiga interferencias contextuales para lograr resultados visualmente naturales en modelos de difusión autoregresivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

El artículo presenta AR-Drag, el primer modelo de difusión autoregresivo de pocos pasos potenciado por aprendizaje por refuerzo que permite la generación de video en tiempo real a partir de imágenes con control de movimiento preciso y alta fidelidad visual, superando las limitaciones de latencia y calidad de los enfoques existentes.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisión sistemática de alcance analiza estudios publicados entre 2018 y 2025 sobre el uso de modelos generativos profundos no supervisados para la detección de anomalías en neuroimagen, concluyendo que, aunque prometen localizar patologías sin datos anotados, su aplicación clínica enfrenta desafíos como la heterogeneidad metodológica y la falta de validación externa.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este trabajo aborda el desafío de la entrelazamiento modal en el aprendizaje continuo de segmentación audio-visual mediante la propuesta de una nueva tarea (CAVS) y un marco de ensayo multimodal basado en colisiones (CMR) que, mediante estrategias de selección y frecuencia de muestras, mitiga la deriva semántica y la confusión por co-ocurrencia, superando significativamente a los métodos unimodales.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

El artículo presenta Dream4Drive, un marco de generación de datos sintéticos que utiliza modelos de mundo de conducción y activos 3D para crear casos extremos multivista fotorealistas, demostrando así una mejora significativa en el rendimiento de los modelos de percepción para la conducción autónoma.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

El artículo presenta MoE-GS, un marco unificado pionero que integra una arquitectura de Mezcla de Expertos con un enrutador de píxeles consciente del volumen para mejorar la síntesis de nuevas vistas en escenas dinámicas mediante la combinación de priores de deformación heterogéneos, logrando un rendimiento superior al estado del arte junto con estrategias de eficiencia como la poda de Gaussianos y la destilación.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

El artículo presenta AnyPcc, un marco universal de compresión de nubes de puntos que establece un nuevo estado del arte mediante un modelo de contexto robusto y una estrategia de ajuste fino adaptativo a instancias para manejar eficazmente datos de diversas densidades y distribuciones.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

← Anterior Siguiente →