FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding
Il paper presenta FLoC, un framework di compressione efficiente e senza addestramento per i token visivi nei modelli multimodali su video lunghi, che utilizza una funzione di localizzazione delle strutture per selezionare in modo rapido e ottimale un sottoinsieme rappresentativo di token, migliorando significativamente le prestazioni su vari benchmark.