Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding
El artículo presenta Em-Garde, un marco innovador que desacopla la comprensión semántica de la percepción en streaming mediante un generador de propuestas guiado por instrucciones y un módulo de coincidencia ligero, logrando así respuestas proactivas más precisas y eficientes en la comprensión de video bajo restricciones computacionales estrictas.