FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding
FLoC is een trainingsvrije, modelonafhankelijke methode die de facility location-functie en een lazy greedy-algoritme gebruikt om visuele tokens in lange video's efficiënt te comprimeren, waardoor de verwerkingssnelheid van Large Multimodal Models aanzienlijk wordt verbeterd zonder in te leveren op de prestaties.