LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding
El artículo presenta LongVideo-R1, un agente multimodal de razonamiento que navega activamente y de forma eficiente en videos largos mediante la selección iterativa de clips informativos, logrando un equilibrio superior entre precisión en preguntas y respuestas y eficiencia computacional.