cs.CV artículos | Gist.Science

Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

El artículo presenta Em-Garde, un marco innovador que desacopla la comprensión semántica de la percepción en streaming mediante un generador de propuestas guiado por instrucciones y un módulo de coincidencia ligero, logrando así respuestas proactivas más precisas y eficientes en la comprensión de video bajo restricciones computacionales estrictas.

Yikai Zheng, Xin Ding, Yifan Yang, Shiqi Jiang, Hao Wu, Qianxi Zhang, Weijun Wang, Ting Cao, Yunxin Liu2026-03-20🤖 cs.AI

SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Este artículo presenta SignAgent, un nuevo marco de agentes basado en modelos de lenguaje grande que automatiza la anotación lingüística y la curación de datos de la lengua de señas, superando las limitaciones de los métodos tradicionales al coordinar herramientas especializadas para generar conjuntos de datos a gran escala y fonológicamente conscientes.

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden2026-03-20💻 cs

DROID-SLAM in the Wild

Este trabajo presenta DROID-SLAM in the Wild, un sistema de SLAM RGB robusto y en tiempo real que logra un seguimiento preciso en entornos dinámicos y desordenados estimando la incertidumbre por píxel mediante inconsistencias de características visuales, superando las limitaciones de los métodos tradicionales que asumen escenas estáticas.

Moyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath2026-03-20💻 cs

Multi-Modal Building Change Detection for Large-Scale Small Changes: Benchmark and Baseline

Este trabajo presenta el conjunto de datos LSMD y la red MSCNet para mejorar la detección de cambios pequeños en edificios mediante la fusión de imágenes RGB y NIR, superando las limitaciones de los métodos actuales al abordar fluctuaciones de iluminación y ambigüedad semántica.

Ye Wang, Wei Lu, Zhihui You, Keyan Chen, Tongfei Liu, Kaiyu Li, Hongruixuan Chen, Qingling Shu, Sibao Chen2026-03-20💻 cs

SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

El artículo presenta SAVeS, un marco y una métrica que demuestran que las decisiones de seguridad de los modelos de visión-lingüística son altamente vulnerables a manipulaciones semánticas simples, revelando que estas dependen de asociaciones aprendidas en lugar de una comprensión visual fundamentada.

Carlos Hinojosa, Clemens Grange, Bernard Ghanem2026-03-20💬 cs.CL

TAU-R1: Visual Language Model for Traffic Anomaly Understanding

Este trabajo presenta TAU-R1, un modelo de lenguaje visual de dos capas diseñado para comprender anomalías en el tráfico, el cual se basa en el nuevo conjunto de datos Roundabout-TAU y una estrategia de entrenamiento específica para mejorar la clasificación y el razonamiento de eventos anómalos en sistemas de transporte inteligentes.

Yuqiang Lin, Kehua Chen, Sam Lockyer, Arjun Yadav, Mingxuan Sui, Shucheng Zhang, Yan Shi, Bingzhang Wang, Yuang Zhang, Markus Zarbock, Florain Stanek, Adrian Evans, Wenbin Li, Yinhai Wang, Nic Zhang2026-03-20💻 cs

CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization

El artículo presenta CustomTex, un marco novedoso que genera mapas de textura de alta fidelidad para escenas 3D interiores mediante un enfoque de doble destilación guiado por imágenes de referencia, logrando un control preciso a nivel de instancia y una calidad visual superior en comparación con los métodos existentes.

Weilin Chen, Jiahao Rao, Wenhao Wang, Xinyang Li, Xuan Cheng, Liujuan Cao2026-03-20🤖 cs.AI

Revisiting Autoregressive Models for Generative Image Classification

Este trabajo demuestra que los clasificadores generativos basados en modelos autoregresivos pueden superar a los modelos de difusión y ser hasta 25 veces más eficientes al eliminar la restricción de un orden de tokens fijo mediante el uso de modelos de "cualquier orden" que promedian múltiples secuencias para obtener una señal de clasificación más robusta.

Ilia Sudakov, Artem Babenko, Dmitry Baranchuk2026-03-20💻 cs

GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning

El artículo presenta GSMem, un marco de exploración y razonamiento corporativo *zero-shot* que utiliza la salpicadura gaussiana 3D (3DGS) como memoria espacial persistente para permitir la recitación espacial y la generación de vistas óptimas, mejorando así la localización de objetivos y la cobertura en tareas de navegación y respuesta a preguntas.

Yiren Lu, Yi Du, Disheng Liu, Yunlai Zhou, Chen Wang, Yu Yin2026-03-20💻 cs

ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation

El marco ADAPT es un método sin entrenamiento que mejora la generación de conceptos compuestos raros en modelos de difusión mediante la planificación determinista de prompts y la alineación semántica utilizando puntuaciones de atención y componentes ortogonales, logrando un control preciso sin comprometer la integridad visual.

Kwanyoung Lee, Hyunwoo Oh, SeungJu Cha, Sungho Koh, Dong-Jin Kim2026-03-20💻 cs

← Anterior Siguiente →