Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

El artículo presenta Em-Garde, un marco innovador que desacopla la comprensión semántica de la percepción en streaming mediante un generador de propuestas guiado por instrucciones y un módulo de coincidencia ligero, logrando así respuestas proactivas más precisas y eficientes en la comprensión de video bajo restricciones computacionales estrictas.

Yikai Zheng, Xin Ding, Yifan Yang, Shiqi Jiang, Hao Wu, Qianxi Zhang, Weijun Wang, Ting Cao, Yunxin Liu2026-03-20🤖 cs.AI

SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation

Este artículo presenta SignAgent, un nuevo marco de agentes basado en modelos de lenguaje grande que automatiza la anotación lingüística y la curación de datos de la lengua de señas, superando las limitaciones de los métodos tradicionales al coordinar herramientas especializadas para generar conjuntos de datos a gran escala y fonológicamente conscientes.

Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden2026-03-20💻 cs

Multi-Modal Building Change Detection for Large-Scale Small Changes: Benchmark and Baseline

Este trabajo presenta el conjunto de datos LSMD y la red MSCNet para mejorar la detección de cambios pequeños en edificios mediante la fusión de imágenes RGB y NIR, superando las limitaciones de los métodos actuales al abordar fluctuaciones de iluminación y ambigüedad semántica.

Ye Wang, Wei Lu, Zhihui You, Keyan Chen, Tongfei Liu, Kaiyu Li, Hongruixuan Chen, Qingling Shu, Sibao Chen2026-03-20💻 cs

TAU-R1: Visual Language Model for Traffic Anomaly Understanding

Este trabajo presenta TAU-R1, un modelo de lenguaje visual de dos capas diseñado para comprender anomalías en el tráfico, el cual se basa en el nuevo conjunto de datos Roundabout-TAU y una estrategia de entrenamiento específica para mejorar la clasificación y el razonamiento de eventos anómalos en sistemas de transporte inteligentes.

Yuqiang Lin, Kehua Chen, Sam Lockyer, Arjun Yadav, Mingxuan Sui, Shucheng Zhang, Yan Shi, Bingzhang Wang, Yuang Zhang, Markus Zarbock, Florain Stanek, Adrian Evans, Wenbin Li, Yinhai Wang, Nic Zhang2026-03-20💻 cs

GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning

El artículo presenta GSMem, un marco de exploración y razonamiento corporativo *zero-shot* que utiliza la salpicadura gaussiana 3D (3DGS) como memoria espacial persistente para permitir la recitación espacial y la generación de vistas óptimas, mejorando así la localización de objetivos y la cobertura en tareas de navegación y respuesta a preguntas.

Yiren Lu, Yi Du, Disheng Liu, Yunlai Zhou, Chen Wang, Yu Yin2026-03-20💻 cs

ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation

El marco ADAPT es un método sin entrenamiento que mejora la generación de conceptos compuestos raros en modelos de difusión mediante la planificación determinista de prompts y la alineación semántica utilizando puntuaciones de atención y componentes ortogonales, logrando un control preciso sin comprometer la integridad visual.

Kwanyoung Lee, Hyunwoo Oh, SeungJu Cha, Sungho Koh, Dong-Jin Kim2026-03-20💻 cs