GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Each language version is independently generated for its own context, not a direct translation.

De Magische Camera die Altijd Kijkt: Hoe een AI beter wordt in het volgen van objecten

Stel je voor dat je een film kijkt waarin een acteur door een drukke markt loopt. Soms loopt hij achter een kraam, soms wordt hij geblokkeerd door een groep mensen, en soms is er veel ruis en afleiding. Een gewone camera (of een simpele computerprogramma) zou de acteur misschien kwijtraken zodra hij even uit beeld is of als er iets in de weg staat.

De auteurs van dit paper hebben een slimme nieuwe manier bedacht om computers te leren hoe mensen kijken: GOT-JEPA. Het is alsof ze een computer hebben gegeven een "superkracht" om niet alleen te kijken, maar ook te voorspellen wat er gaat gebeuren, zelfs als het beeld wazig is.

Hier is hoe het werkt, opgedeeld in drie simpele onderdelen:

1. De "Tweeling" die van elkaar leert (GOT-JEPA)

Stel je voor dat je een leerling hebt die een kunstwerk moet nabootsen.

De Meester (Teacher): Kijkt naar een perfect, helder beeld van het object.
De Leerling (Student): Kijkt naar hetzelfde beeld, maar dan met een vieze vlek eroverheen, alsof er modder op het raam zit (dit noemen ze een "corrupte" of beschadigde beelden).

In de oude methoden leerden computers alleen van perfecte beelden. Als ze dan een vies beeld zagen, raakten ze in paniek. Bij GOT-JEPA doet de Meester het werk: hij maakt een "spookplan" (een voorspelling) van hoe het object eruit zou moeten zien op basis van het perfecte beeld. De Leerling moet dan proberen datzelfde spookplan te maken, maar dan puur op basis van het vieze, modderige beeld.

De analogie: Het is alsof je een puzzel moet leggen terwijl er een doek over je handen zit. Je moet de oplossing raden door te vertrouwen op wat je weet van de vorige stukjes, niet op wat je nu ziet. Hierdoor leert de computer om niet in de war te raken als het beeld even niet perfect is.

2. De "Zichtbaarheids-Scanner" (OccuSolver)

Soms is een object helemaal bedekt. Een gewone tracker denkt dan: "Huh? Waar is hij?" en stopt. Maar mensen zijn slim: we weten dat het object er nog steeds is, ook al zien we het niet.

De auteurs hebben een hulpmiddel bedacht genaamd OccuSolver.
Stel je voor dat je een object volgt met een magische lantaarn. In plaats van alleen naar het hele object te kijken, schijnt deze lantaarn op honderden kleine puntjes op het object (zoals een stippenpatroon).

Sommige stippen zijn zichtbaar (rood).
Sommige stippen zijn bedekt door een muur of een ander object (blauw).

OccuSolver is als een detective die zegt: "Oké, de neus van de acteur is bedekt, maar zijn linkeroor is nog zichtbaar. Laten we doorgaan met volgen op basis van het oor!" Hierdoor kan de computer heel precies weten welk deel van het object nog te zien is en welk deel niet. Dit helpt de tracker om niet te verliezen als iets voorbij loopt.

3. De Samenwerking: Een Perfect Team

Het echte geheim van dit paper is hoe deze twee delen samenwerken.

De Tweeling (GOT-JEPA) zorgt ervoor dat de tracker sterk is en niet snel in de war raakt.
De Scanner (OccuSolver) zorgt ervoor dat de tracker precies weet wat er gebeurt als er dingen voorbij lopen.

Ze helpen elkaar: De tracker geeft de scanner betere informatie over waar het object is, en de scanner geeft de tracker betere informatie over wat er zichtbaar is. Het is alsof een voetbalspeler (de tracker) en een assistent-trainer (de scanner) continu met elkaar praten om de beste strategie te bedenken, zelfs als het regent en de grond modderig is.

Waarom is dit belangrijk?

Vroeger waren computers goed in het volgen van objecten als alles perfect was. Maar in het echte leven is het vaak rommelig, donker of bedekt.
Met deze nieuwe methode (getest op zeven verschillende moeilijke tests) kan de computer:

Objecten volgen die ze nog nooit eerder hebben gezien.
Niet verliezen als het object even verdwijnt achter een boom.
Beter presteren dan de beste bestaande systemen, zelfs als er veel afleiding is.

Kortom: De auteurs hebben een computer geleerd om niet alleen te kijken, maar ook te redeneren over wat er gebeurt, net zoals een mens dat doet. Ze hebben de computer een "veiligheidsnet" gegeven zodat hij nooit meer de boot mist, zelfs niet als het water erg ruig is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture", geschreven in het Nederlands.

Probleemstelling

Algemene Object Tracking (GOT) is de taak om een willekeurig doelobject, gespecificeerd door een initiële bounding box, te volgen in een video. Bestaande trackers, vaak gebaseerd op het "tracking-by-detection" paradigma, kampen met twee fundamentele beperkingen:

Beperkte Generalisatie: Ze zijn vaak geoptimaliseerd voor de specifieke doelen tijdens het trainen, wat leidt tot een gebrek aan robuustheid en generalisatievermogen in ongezette scenario's (out-of-distribution) met nieuwe objecten of complexe achtergronden.
Onvoldoende Omgaan met Occlusie: Bestaande methoden behandelen occlusie (verduistering) vaak op een grof niveau (bijv. op basis van een bounding box of een globale betrouwbaarheidsscore). Ze missen het vermogen om op fijnkorrelige wijze (pixel- of punt-niveau) te redeneren over welke delen van een object zichtbaar zijn en welke niet. Dit leidt tot onbetrouwbare tracking wanneer objecten gedeeltelijk worden verduisterd.

Het menselijk visuele systeem lost dit op door huidige waarnemingen te integreren met eerdere informatie, zich aan te passen aan veranderingen, en fijnkorrelig te redeneren over zichtbaarheid. Het paper stelt dat huidige trackers dit abstracte redeneervermogen missen.

Methodologie

Het paper introduceert GOT-JEPA, een raamwerk dat de Joint-Embedding Predictive Architecture (JEPA) uitbreidt van het voorspellen van beeldfeatures naar het voorspellen van tracking-modellen. Daarnaast wordt OccuSolver voorgesteld om de occlusie-perceptie te verbeteren.

1. GOT-JEPA: Model-Predictive Pretraining

Het kernidee is om een "leraar-student" architectuur te gebruiken om een robuust model te trainen dat tracking-modellen kan genereren, zelfs onder slechte omstandigheden.

Architectuur:
- Leraar (t-Predictor): Een bevroren, vooringestelde predictor die een "pseudo-tracking model" genereert op basis van een schone (niet-corrupte) huidige frame, gebruikmakend van identieke historische informatie (referentieframes).
- Student (s-Predictor): Een trainbaar model dat probeert hetzelfde pseudo-tracking model te voorspellen, maar dan op basis van een gecorrumpeerde versie van de huidige frame (bijv. met toegevoegde obstakels, verduisteringen of distractors).
Leerdoel: De student moet leren om, ondanks de corruptie in de huidige frame, een robuust model te voorspellen dat consistent is met de leraar. Dit dwingt het model om invariante representaties te leren die niet afhankelijk zijn van tijdelijke verstoringen.
Verliesfuncties:
- Invariantie-verlies ( $L_{inv}$ ): Minimaliseert het verschil tussen het door de student voorspelde model en het leraar-model.
- Covariantie-verlies ( $L_{cov}$ ): Voegt een regularisatie toe om redundante informatie in de voorspelde modellen te verminderen, wat de diversiteit en discriminatiekracht van de voorspellingen verhoogt.
ProjNet: Een lichtgewicht lineair netwerk (hypernetwork) in de student-branch dat dynamisch de gewichten voor de localisatiekop genereert, wat helpt bij het aanpassen aan corrupties.

2. OccuSolver: Fijnkorrelige Occlusie-Perceptie

Om de beperkingen van grove occlusie-handeling op te lossen, wordt een punt-gebaseerde tracker (gebaseerd op CoTracker) geïntegreerd en aangepast.

Object-Aware Point Tracking: De standaard punt-trackers zijn objectonafhankelijk. OccuSolver konditieert deze tracker op "object priors" (referentie-labels) gegenereerd door de GOT-tracker. Hierdoor worden de punten niet willekeurig gekozen, maar gericht op het doelobject.
Iteratieve Verfijning: Een iteratieve transformer verfijnt de coördinaten en de zichtbaarheidsstatus (zichtbaar/onzichtbaar) van de punten.
Ensemble Netwerk: Een transformer-module combineert de dichte visuele features van de GOT-tracker met de schaarse, maar nauwkeurige, zichtbaarheidsinformatie van de punt-tracker.
Feedback-lus: De gegenereerde zichtbaarheidsstaten worden gebruikt om betere referentie-labels te creëren voor de volgende frames. Dit creëert een cyclus waarbij de tracker betere labels genereert voor de model-adaptatie, en vice versa.

Belangrijkste Bijdragen

GOT-JEPA Framework: De eerste toepassing van JEPA voor het voorspellen van tracking-modellen in plaats van beeldfeatures. Dit verlegt de focus van het leren van specifieke objecten naar het leren van het vaardigheid om trackers te genereren voor willekeurige doelen.
OccuSolver: Een nieuwe module die high-level semantische priors koppelt aan low-level geometrische cues (punten) om fijnkorrelige, pixel-niveau occlusie-redenering mogelijk te maken.
Robuustheid en Generalisatie: Door het trainen op gevarieerde corrupties met een stabiele leraar, verbetert het systeem de prestaties aanzienlijk in ongezette scenario's en bij complexe occlusies.

Resultaten

Het model is geëvalueerd op zeven benchmarks, waaronder AVisT (adverse visibility), NfS, OTB-100, GOT-10k, LaSOT, TrackingNet en VOT2022.

State-of-the-Art (SOTA) Prestaties: GOT-JEPA behaalde de beste resultaten op de meeste datasets, zowel voor in-distribution als out-of-distribution doelen.
- Op AVisT (test zonder trainset): 63.7% SUC (Success Rate), beter dan PiVOT (62.2%) en LoRAT (62.0%).
- Op OTB-100: 73.2% SUC, het hoogste van alle vergeleken trackers.
- Op GOT-10k: 79.6% Average Overlap (AO), wat aantoont dat het goed generaliseert naar nieuwe objectklassen.
Occlusie en Deformatie: De ablatiestudies tonen aan dat zowel de JEPA-pretraining als OccuSolver essentieel zijn. OccuSolver zorgt voor significante verbeteringen in scenario's met occlusie en deformatie.
Efficiëntie: Ondanks de complexiteit, draait de tracker met 24 FPS (hoge resolutie) en 50 FPS (lage resolutie) op een NVIDIA RTX 4090. De meeste rekentijd gaat naar de backbone (ViT-L), maar de toegevoegde modules (OccuSolver, ProjNet) zijn relatief licht.

Betekenis en Conclusie

Dit werk markeert een paradigmaverschuiving in object tracking. In plaats van alleen te focussen op het verbeteren van de matching-functie of het gebruik van maskers, introduceert het paper een model-predictieve aanpak. Door een tracker te laten "leren hoe je een tracker bouwt" onder moeilijke omstandigheden, wordt de generalisatie naar ongezette scenario's drastisch verbeterd.

De integratie van punt-gebaseerde zichtbaarheidsinformatie (via OccuSolver) lost een langdurig probleem op: het gebrek aan fijnkorrelige occlusie-handeling in generieke trackers. Dit stelt systemen in staat om niet alleen te weten dat een object verduisterd is, maar ook welke delen zichtbaar blijven, wat essentieel is voor langdurige tracking in dynamische omgevingen. De methode biedt een nieuwe richting voor robuuste AI-vision systemen die dichter bij het menselijke waarnemingsvermogen komen.

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

De Magische Camera die Altijd Kijkt: Hoe een AI beter wordt in het volgen van objecten

1. De "Tweeling" die van elkaar leert (GOT-JEPA)

2. De "Zichtbaarheids-Scanner" (OccuSolver)

3. De Samenwerking: Een Perfect Team

Waarom is dit belangrijk?

Probleemstelling

Methodologie

1. GOT-JEPA: Model-Predictive Pretraining

2. OccuSolver: Fijnkorrelige Occlusie-Perceptie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem