TrajTok: Learning Trajectory Tokens enables better Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een video bekijkt, zoals een dansvoorstelling of een autowedstrijd. Voor een computer is een video echter niets meer dan een reusachtige stapel foto's die heel snel achter elkaar worden getoond.

De traditionele manier waarop computers deze video's "lezen", is als een mozaïek van kleine tegeltjes. De computer snijdt elke foto in duizenden kleine vierkantjes (zoals een pixel-gebaseerd raster) en probeert elk van die duizenden stukjes apart te analyseren. Dit is als proberen een heel verhaal te begrijpen door elk individueel woord op een pagina letterlijk één voor één te tellen, zonder te kijken naar de zinnen of de personages. Het kost enorm veel rekenkracht, is traag en creëert veel "ruis" (redundantie).

TrajTok is de nieuwe uitvinding die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Tegel-omanie"

Stel je voor dat je een film bekijkt van een danseres. De oude methode (Patch Tokenization) kijkt naar elke beweging alsof het een muur is van kleine tegels. Als de danseres haar arm beweegt, moet de computer duizenden tegeltjes opnieuw berekenen, zelfs als die tegeltjes er precies hetzelfde uitzien als in de vorige seconde. Het is inefficiënt en verliest het grote plaatje uit het oog.

2. De oplossing: TrajTok (De "Danser-Tracker")

TrajTok doet iets heel anders. In plaats van naar tegeltjes te kijken, kijkt het naar bewegende personages.

De Analogie van de Dans:
Stel je voor dat je een danser bekijkt. In plaats van te tellen hoeveel pixels er op de vloer bewegen, zegt TrajTok: "Ah, daar is een danser! En daar is een andere danser!"
Het volgt deze dansers door de tijd heen. Het groepeert alle pixels die bij die ene danser horen tot één enkel, slimme eenheid (een "token").
- Als de danser springt, blijft het één token.
- Als er tien dansers zijn, zijn er tien tokens.
- Het maakt niet uit hoe lang de video is; het aantal tokens hangt af van hoeveel dingen er gebeuren, niet van hoe lang de video duurt.

3. Waarom is dit zo slim? (De "Leren" vs. "Vaste" Regels)

Vroeger hadden wetenschappers een aparte, zware machine nodig om te zeggen: "Oké, dit is een danser, dit is de achtergrond." Die machine was traag en kon niet leren van de specifieke taak.

TrajTok is als een slimme assistent die direct in de filmregie zit.

Het leert zelf wat belangrijk is. Als de taak is om de dansstijl te analyseren, leert het de token focussen op de beweging van de benen.
Als de taak is om te tellen hoeveel groepen er zijn, leert het de token focussen op de groepsvorming.
Het is end-to-end: het leert terwijl het de video bekijkt, zonder dat er een aparte, trage stap tussen zit.

4. De drie superkrachten van TrajTok

De auteurs tonen aan dat deze "danser-tracker" op drie manieren werkt:

De Nieuwe Camera (TrajViT2):
Het bouwt een nieuwe videocomputer van de grond af op. Deze camera is zo slim dat hij niet naar duizenden tegels kijkt, maar direct naar de bewegende objecten. Resultaat: hij is sneller, gebruikt minder energie en begrijpt video's beter dan de oude modellen.
De Slimme Bril (TrajAdapter):
Stel je hebt al een oude, dure camera (een bestaand AI-model) die video's kan zien, maar die kijkt nog steeds naar tegels. Je kunt TrajTok als een tussenstukje (een bril) tussen die camera en de einddoelstelling zetten. De camera ziet de tegels, maar TrajTok groepeert ze direct tot "dansers" voordat het antwoord wordt gegeven. Hierdoor wordt de oude camera plotseling veel slimmer zonder dat je hem helemaal opnieuw hoeft te bouwen.
De Vertaler voor Lange Films (TrajVLM):
Als je een computer wilt leren om vragen te beantwoorden over een heel lange video (bijvoorbeeld: "Wat gebeurde er in de tweede minuut van de dans?"), raken oude modellen vaak de draad kwijt omdat er te veel informatie is. TrajTok werkt hier als een samenvatting. Het vertaalt de lange, rommelige video naar een paar duidelijke zinnen over de bewegende objecten. Hierdoor kan de computer lange verhalen veel beter begrijpen en onthouden.

Samenvattend

TrajTok is als het verschil tussen het tellen van elke steen in een rivier en het volgen van de stroming van de rivier zelf.

Oude methode: Telt elke steen (traag, veel werk, verliest het overzicht).
TrajTok: Volgt de stroming en de objecten die erin drijven (snel, efficiënt, begrijpt de context).

Het maakt video's begrijpen voor computers niet alleen sneller en goedkoper, maar ook slimmer, omdat het zich aanpast aan wat er echt belangrijk is in het verhaal van de video.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Bestaande video-modellen, die vaak gebaseerd zijn op Transformers, maken gebruik van patchificatie (het opsplitsen van video's in ruimte-tijd-patches) als tokenisatiestrategie. Dit leidt tot twee fundamentele problemen:

Efficiëntie en Schaalbaarheid: Het genereren van een vast raster van patches creëert een overvloed aan redundante tokens, vooral bij video's met hoge resolutie of lange duur. Dit veroorzaakt zware geheugenbottlenecks en hoge rekentijd.
Beperkingen van bestaande oplossingen: Recent werk (zoals TrajViT) heeft voorgesteld om video's te tokeniseren op basis van objecttrajecten in plaats van patches. Dit koppelt de token-aantal los van de videolengte en vermindert redundantie aanzienlijk. Echter, deze methoden zijn afhankelijk van externe, niet-differentieerbare pijplijnen voor segmentatie en tracking (zoals SAM of SAM2). Dit maakt het proces traag, niet trainbaar in een end-to-end setting, en star in zijn semantische granulariteit (het past zich niet aan aan de specifieke downstream taak).

2. Methodologie: TrajTok

De auteurs stellen TrajTok voor, een end-to-end differentieerbare tokenizer die volledig geïntegreerd is met het video-model en samen wordt getraind voor een specifieke downstream-doelstelling. Het systeem bestaat uit twee hoofdcomponenten:

A. Universele Segmentator (Trajectory Segmenter)

In plaats van pixel-perfecte maskers te genereren (wat rekenintensief is), focust deze module op semantische groepering.

Architectuur: Het gebruikt een lichtgewicht patch-encoder (bijv. ConvNeXt) om dense features te extraheren. Vervolgens worden leerbare queries (cluster-prototypen) verwerkt via een stack van Perceiver-lagen.
Mechanisme: De queries gebruiken cross-attention op de spatiotemporale features. Door het toepassen van 1D Rotary Positional Embeddings (RoPE) wordt de spatiotemporale structuur behouden.
Output: De module genereert zachte segmentatiemaskers ( $M_{soft}$ ) die objecten groeperen over tijd en ruimte.
Training: De segmentator wordt getraind met een combinatie van Dice-loss en Focal-loss (zonder standaard cross-entropy). Dit prioriteert het ontdekken van alle objectregio's boven strikte pixel-nauwkeurigheid. De gradients van de input features worden losgekoppeld (detached) om instabiele co-adaptatie te voorkomen.

B. Trajecto Encoder

Deze module comprimeert de gegroepeerde features tot compacte tokens.

Zachte en Harde Aggregatie: Eerst worden features gewogen geaggregeerd op basis van de zachte maskers om initiële embeddings ( $z_{init}$ ) te vormen. Vervolgens wordt een tweede Perceiver-module gebruikt met harde maskers (via argmax) om de representaties te verfijnen en details te behouden.
Adaptieve Token-aantal: Geïnspireerd door Matryoshka-representaties, kan de encoder per traject variëren in het aantal tokens (bijv. 1, 2 of 4 tokens). Dit maakt een flexibele afweging mogelijk tussen efficiëntie en expressiviteit, afhankelijk van de complexiteit van de beweging.

3. Belangrijkste Bijdragen

Het paper introduceert drie verschillende toepassingsscenario's voor TrajTok:

TrajViT2 (Van scratch trainen): Een video-encoder die vanaf nul wordt getraind met de CLIP-doelstelling, waarbij TrajTok de tokens direct uit ruwe pixels genereert.
TrajAdapter (Feature Adapter): Een plug-in module die wordt ingevoegd na een pretrained ViT. Het herschikt de dichte feature maps naar traject-tokens om de prestaties van "probing" (lineaire evaluatie) te verbeteren zonder volledige fine-tuning.
TrajVLM (Vision-Language Model): TrajTok fungeert als een connector tussen een visuele encoder (ViT) en een Large Language Model (LLM), specifiek ontworpen voor video-VQA (Video Question Answering).

4. Resultaten

De experimenten tonen aan dat TrajTok superieur presteert in zowel efficiëntie als nauwkeurigheid:

Prestaties (TrajViT2):
- Bereikt state-of-the-art resultaten op classificatie- en retrieval-benchmarks.
- Verbetering van +4,8% op Kinetics-400 en +4,1% op Something-Something V2 (SSv2) ten opzichte van een standaard video ViT.
- Overtreft bestaande token-merging methoden (zoals TokenLearner, RLT) en de eerdere TrajViT (die externe pipelines gebruikt).
- Schalingsgedrag: TrajViT2 toont een sterkere schaling bij toenemende datasetgrootte dan TrajViT, waarschijnlijk omdat de segmentator dynamisch kan aanpassen aan de pre-training doelstelling.
- Efficiëntie: De inferentie FLOPs zijn vergelijkbaar met de meest efficiënte baselines (zoals ViViT), terwijl TrajTok (met externe pipeline) veel zwaarder is.
Probing (TrajAdapter):
- Verbeterde classificatie-nauwkeurigheid op K400 en SSv2 wanneer gebruikt als adapter voor pretrained encoders (VideoMAE-v2, V-JEPA2), zelfs met slechts één token per traject.
Video-VQA (TrajVLM):
- Toont aanzienlijke verbeteringen op lange video-benchmarks (bijv. +8,8% op LongVideoBench) ten opzichte van traditionele patch-pooling connectoren.
- De semantisch gestructureerde tokens ondersteunen beter langetermijnredenering dan het simpelweg samenvoegen van patches.

5. Betekenis en Conclusie

TrajTok vertegenwoordigt een paradigmaverschuiving in video-tokenisatie:

Van extern naar intern: Het vervangt trage, handmatige externe tracking-pijplijnen door een leerbaar, end-to-end differentieerbaar systeem.
Semantische prioriteit: Het bewijst dat "pixel-perfecte" segmentatie niet nodig is voor hoogwaardig video-verstaan; semantische groepering is belangrijker voor downstream taken.
Veelzijdigheid: Het werkt niet alleen als een tokenizer voor nieuwe modellen, maar ook als een krachtige adapter voor bestaande modellen en als een connector voor multimodale systemen.

Kortom, TrajTok biedt een efficiënte, schaalbare en semantisch onderbouwde manier om video's te vertalen naar tokens, wat leidt tot betere prestaties in classificatie, retrieval en redenering over lange video's.

TrajTok: Learning Trajectory Tokens enables better Video Understanding

1. Het oude probleem: De "Tegel-omanie"

2. De oplossing: TrajTok (De "Danser-Tracker")

3. Waarom is dit zo slim? (De "Leren" vs. "Vaste" Regels)

4. De drie superkrachten van TrajTok

Samenvattend

1. Het Probleem

2. Methodologie: TrajTok

A. Universele Segmentator (Trajectory Segmenter)

B. Trajecto Encoder

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation