LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding
Il paper presenta LongVideo-R1, un agente multimodale basato su ragionamento che ottimizza la comprensione di video lunghi a basso costo navigando in modo attivo e selettivo attraverso i contenuti, riducendo così la ridondanza computazionale senza compromettere l'accuratezza.