ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
Il paper presenta ReMoRa, un modello linguistico multimodale che supera le sfide della comprensione di video lunghi elaborando direttamente rappresentazioni di movimento compresse e raffinate, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.