FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

FLoC is een trainingsvrije, modelonafhankelijke methode die de facility location-functie en een lazy greedy-algoritme gebruikt om visuele tokens in lange video's efficiënt te comprimeren, waardoor de verwerkingssnelheid van Large Multimodal Models aanzienlijk wordt verbeterd zonder in te leveren op de prestaties.

Janghoon Cho, Jungsoo Lee, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎬 Het Probleem: De "Video-Overstroom"

Stel je voor dat je een kunstgalerie bezoekt, maar in plaats van één schilderij per muur, krijg je duizenden schilderijen per seconde te zien. Dat is wat er gebeurt wanneer een slimme computer (een AI) naar een lang video probeert te kijken.

Vroeger waren deze AI's goed in het bekijken van korte filmpjes. Maar nu willen we dat ze urenlange documentaires, beveiligingscamera-opnames of video's van een robot die door een stad loopt, kunnen begrijpen. Het probleem? Een video van slechts één minuut kan bestaan uit miljoenen kleine stukjes beeld (we noemen ze "tokens").

Het is alsof je een heel jaar aan dagboeken moet samenvatten in één zin. Als de AI al die miljoenen stukjes probeert te lezen, wordt hij overbelast, traag en krijgt hij een "breinverbranding". De meeste huidige methoden om dit op te lossen zijn als een slordige schaar: ze knippen willekeurig stukjes weg of houden alleen de meest voorkomende beelden vast. Hierdoor gaan belangrijke details verloren, zoals een klein sleuteltje dat ergens op de grond ligt, terwijl de AI zich alleen richt op de grote, saaie achtergrond.

💡 De Oplossing: FLoC (De Slimme Boekhouder)

De auteurs van dit paper hebben FLoC bedacht. Dit staat voor Facility Location-based Efficient Visual Token Compression. Klinkt ingewikkeld? Laten we het anders bekijken.

Stel je voor dat je een reistocht moet plannen voor een groep vrienden, maar je mag slechts 5 stops bezoeken in een land dat duizenden plekken heeft.

  • De oude methode (Klusteren): Je kijkt naar de kaart en zegt: "Laten we 5 plekken kiezen die dicht bij elkaar liggen." Het probleem? Je mist dan misschien de prachtige bergtop of de verborgen waterval die ergens ver weg staat. Je kiest alleen de "gemiddelde" plekken.
  • De FLoC-methode: FLoC werkt als een slimme boekhouder. Hij vraagt zich af: "Welke 5 plekken zorgen ervoor dat we het hele land zo goed mogelijk hebben gezien?"

Hij kiest niet alleen de populaire plekken, maar ook die ene afgelegen plek die uniek is. Hij zorgt ervoor dat je selectie divers is (je ziet van alles) en representatief (je mist niets belangrijks).

⚙️ Hoe werkt het? (De "Lazy Greedy" Truc)

Het kiezen van de perfecte 5 plekken uit duizenden is een enorme rekensom die normaal dagen zou duren. FLoC gebruikt een slimme truc genaamd "Lazy Greedy" (Luie Gierige).

Stel je voor dat je een berg appels moet sorteren.

  • Een normale manier is om elke appel te proeven en te vergelijken met elke andere appel. Dat duurt eeuwen.
  • De FLoC-methode kijkt eerst snel naar de appels. Hij pakt de grootste en lekkerste. Dan kijkt hij: "Zie ik nog een appel die veel beter is dan de rest?" Als het antwoord nee is, slaat hij die over. Hij doet alleen de zware rekenwerk als het echt nodig is.

Dankzij deze truc is FLoC ontzettend snel. Het is alsof je een hele bibliotheek in een handomdraai samenvat zonder de boeken te hoeven lezen.

🚀 Waarom is dit geweldig?

  1. Het is "Plug-and-Play": Je hoeft de AI niet opnieuw te trainen. Je kunt FLoC zomaar tussen de camera en de AI zetten, als een filter. Het werkt met elke AI die je hebt.
  2. Het mist niets: Omdat FLoC zorgt voor diversiteit, vindt hij ook de "naald in de hooiberg". Bijvoorbeeld: in een video van een feestje mist hij niet het moment waarop iemand een glas breekt, ook al gebeurt dat maar één keer.
  3. Het is snel: Het duurt minder tijd om de video te comprimeren dan om hem daadwerkelijk te bekijken. Dit is cruciaal voor robots die in real-time moeten reageren of voor beveiligingscamera's die 24/7 draaien.

🏆 Het Resultaat

In tests met enorme benchmarks (zoals Video-MME en MLVU) bleek dat FLoC beter presteert dan alle andere methoden.

  • Bij korte video's is het net zo goed als de beste.
  • Bij lange video's (urenlang) is het veel beter, omdat het de AI niet laat verdrinken in informatie.

Kortom: FLoC is de slimme assistent die een video van 1 uur bekijkt, de belangrijkste momenten selecteert alsof hij een meesterwerk maakt, en de rest weglaat. Hierdoor kan de AI sneller, slimmer en goedkoper kijken naar lange video's, zonder de kwaliteit te verliezen. Het is de oplossing voor het "te veel aan informatie"-probleem in de wereld van video-AI.