GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einen Freund auf einer überfüllten, chaotischen Party zu verfolgen. Er bewegt sich, wird von anderen Gästen verdeckt, das Licht ändert sich, und manchmal ist er nur noch ein kleiner Fleck in der Menge. Ein normales Kamerasystem (ein herkömmlicher Tracker) würde hier schnell den Kopf verlieren: „Wo ist er? War das er? Nein, das war nur ein ähnliches Hemd."

Dieses Papier stellt eine neue, viel schlauere Methode vor, die GOT-JEPA heißt, um genau dieses Problem zu lösen. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „sture" Tracker

Bisherige Tracker sind wie Schüler, die nur für eine ganz bestimmte Prüfung gelernt haben. Wenn sie einen neuen, unbekannten Freund auf einer anderen Party sehen, sind sie ratlos. Sie können sich nicht gut anpassen. Außerdem, wenn ihr Freund kurz hinter einer Säule verschwindet (Verdeckung/Occlusion), geben sie oft auf oder verfolgen das falsche Objekt, weil sie nicht genau wissen, welcher Teil ihres Freundes noch sichtbar ist.

2. Die Lösung: GOT-JEPA – Der „Trainings-Coach"

Die Forscher haben eine neue Trainingsmethode entwickelt, die auf einer Architektur namens JEPA basiert.

Die Analogie: Stellen Sie sich einen Trainer (Lehrer) und einen Schüler vor.
- Der Trainer sieht den Freund in einer perfekten, klaren Umgebung. Er sagt: „So sieht er aus, wenn alles gut läuft."
- Der Schüler sieht denselben Freund, aber das Bild ist „verdorben". Vielleicht ist er durch eine Glaswand gesehen, oder es regnet, oder jemand steht davor.
- Der Trick: Der Schüler muss lernen, den Freund trotzdem zu erkennen und zu verfolgen, obwohl das Bild schlecht ist. Er muss dem Trainer antworten: „Ich weiß, dass er hinter der Säule ist, auch wenn ich ihn nicht sehe!"
Das Ergebnis: Der Schüler wird extrem robust. Er lernt nicht nur, wer der Freund ist, sondern wie man ihn findet, egal was passiert. Er wird zum „Meister der Anpassung".

3. Der Spezialist: OccuSolver – Der „Detektiv mit Lupe"

Das ist der zweite große Teil der Erfindung. Wenn der Freund verdeckt ist, reicht es nicht zu wissen, dass er „irgendwo" da ist. Man muss wissen, welche Teile man noch sehen kann.

Das Problem alter Tracker: Sie behandeln den Freund wie einen einzigen Kasten (einen Bounding Box). Wenn die Hälfte des Kastens verdeckt ist, ist der ganze Kasten „verdeckt". Das ist ungenau.
Die neue Methode (OccuSolver): Dieser Teil nutzt eine Punkt-basierte Verfolgung.
- Die Analogie: Stellen Sie sich vor, Sie kleben 100 kleine Kleckse Farbe auf die Kleidung Ihres Freundes.
- Der OccuSolver ist wie ein Detektiv mit einer Lupe. Er schaut sich jeden einzelnen Klecks an. Er sagt: „Aha! Der Klecks auf dem linken Arm ist noch sichtbar, aber der auf dem rechten Bein ist hinter der Säule verschwunden."
- Er filtert die unsichtbaren Punkte heraus und behält nur die sichtbaren.
Die Zusammenarbeit: Der Tracker sagt dem Detektiv: „Achte auf meinen Freund!" Der Detektiv sagt zurück: „Okay, ich sehe nur noch den Kopf und die linke Schulter." Diese Information hilft dem Tracker, den Freund auch dann zu finden, wenn er fast ganz verdeckt ist.

4. Warum ist das so genial?

Stellen Sie sich vor, Sie spielen ein Videospiel.

Alte Tracker: Wenn der Charakter hinter eine Wand läuft, denkt das Spiel: „Verloren!" und sucht wild herum.
GOT-JEPA + OccuSolver: Das Spiel denkt: „Okay, der Charakter ist hinter der Wand. Ich weiß genau, wo er war, und ich verfolge die kleinen Lichtpunkte, die noch durch die Ritzen scheinen. Sobald er wieder auftaucht, bin ich sofort wieder dran."

Zusammenfassung in einem Satz

Die Forscher haben ein System gebaut, das wie ein sehr erfahrener Bodyguard ist: Er trainiert ständig unter schwierigen Bedingungen (schlechte Bilder), um seinen Schützling zu finden, und nutzt eine Lupe, um genau zu wissen, welche Teile des Schützlings gerade sichtbar sind, damit er ihn nie aus den Augen verliert – selbst in der chaotischesten Menschenmenge.

Das Ergebnis ist ein Tracker, der viel besser mit Verdeckungen, schnellen Bewegungen und neuen, unbekannten Objekten umgehen kann als alle bisherigen Systeme.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture" auf Deutsch.

1. Problemstellung

Das Ziel des Generic Object Tracking (GOT) ist es, ein beliebiges Zielobjekt basierend auf einem einzigen initialen Bounding-Box im ersten Frame über die folgenden Videoframes hinweg zu verfolgen. Aktuelle State-of-the-Art-Tracker stoßen jedoch an Grenzen, insbesondere in folgenden Bereichen:

Mangelnde Generalisierung: Viele Tracker sind stark auf die Trainingsziele optimiert und scheitern bei „unseen" (ungesehenen) Zielen oder Szenarien, die nicht im Trainingsset enthalten waren.
Unzureichende Okklusionsbehandlung: Bestehende Methoden behandeln Okklusionen oft nur grob auf Ebene des gesamten Bounding-Boxes oder der Szene. Sie können nicht fein granuliert (pixelgenau) ableiten, welche Teile eines Objekts sichtbar und welche verdeckt sind.
Fehlende Anpassungsfähigkeit: Herkömmliche „Tracking-by-Detection"-Ansätze aktualisieren ihre Modelle oft nur basierend auf dem aktuellen Erscheinungsbild, ohne die Fähigkeit zu besitzen, robuste Vorhersagemodelle für veränderte Bedingungen (z. B. Verdeckungen, Ablenkungen) zu generieren.
Mangelnde Feinabstimmung: Die menschliche visuelle Wahrnehmung integriert Beobachtungen mit Vorwissen und schließt auf Verdeckungen. Aktuelle KI-Systeme fehlt diese abstrakte Schlussfolgerungsfähigkeit.

2. Methodik

Die Autoren schlagen einen zweistufigen Ansatz vor, der aus dem GOT-JEPA-Framework und der OccuSolver-Komponente besteht.

A. GOT-JEPA (Joint-Embedding Predictive Architecture für Tracking)

Das Kernstück ist die Erweiterung des JEPA-Paradigmas von der Vorhersage von Bildmerkmalen hin zur Vorhersage von Tracking-Modellen selbst.

Architektur: Das System nutzt einen Teacher-Prädiktor (t-Predictor) und einen Student-Prädiktor (s-Predictor).
Trainingsprozess:
- Beide Prädiktoren erhalten identische historische Informationen (Referenzframes und Labels) als Few-Shot-Beispiele.
- Der Teacher erhält den aktuellen Frame in seiner sauberen (unverfälschten) Form und generiert daraus ein „Pseudo-Tracking-Modell" (ein robustes Filter/Modell zur Zielerkennung).
- Der Student erhält denselben aktuellen Frame, jedoch mit künstlichen Störungen (Corruption, z. B. durch Copy-Paste von Ablenkungen oder Okklusionen).
- Ziel: Der Student muss das gleiche Pseudo-Modell wie der Teacher vorhersagen, obwohl er nur eine verfälschte Eingabe hat.
Verlustfunktionen:
- Invarianz-Loss ( $L_{inv}$ ): Erzwingt, dass der Student das korrekte Modell trotz Störungen vorhersagen kann.
- Kovarianz-Loss ( $L_{cov}$ ): Wird auf den Ausgaben des Students angewendet, um redundante Informationen zu reduzieren und die Vielfalt der gelernten Muster zu erhöhen.
ProjNet: Eine leichte lineare Netzwerkschicht im Student-Branch, die als Hypernetwork fungiert und die Gewichte für die Lokalisierungs-Decoder dynamisch generiert.

B. OccuSolver (Okklusionslösung)

Diese Komponente verbessert die Wahrnehmung von Verdeckungen, indem sie ein punkt-basiertes Tracking (Point Tracking) mit dem GOT-Tracker koppelt.

Anpassung des Point Trackers: Ein existierender Point Tracker (basierend auf CoTracker) wird so angepasst, dass er „objekt-bewusst" wird. Er nutzt Objekt-Priors (Referenz-Labels) des GOT-Trackers, um zu lernen, welche Punkte zum Ziel gehören und welche zum Hintergrund.
Feinabstimmung der Sichtbarkeit: OccuSolver schätzt den Sichtbarkeitszustand (sichtbar/unsichtbar) für jeden einzelnen Punkt des Ziels.
Ensemble Network: Die dünn besetzten Sichtbarkeitsdaten des Point Trackers werden mit den dichten visuellen Merkmalen des GOT-Trackers fusioniert. Dies erzeugt eine „sichtbarkeitsbewusste" Darstellung des aktuellen Frames.
Rückkopplung: Die verbesserten Sichtbarkeitsinformationen dienen als hochwertige Referenzlabels, um das GOT-JEPA-Modell weiter zu verfeinern. Dies schafft einen positiven Kreislauf: Bessere Priors führen zu besserer Sichtbarkeitsanalyse, was wiederum bessere Tracking-Modelle generiert.

3. Schlüsselbeiträge

GOT-JEPA Framework: Ein neuartiges Pre-Training-Paradigma, das JEPA auf die Vorhersage von Tracking-Modellen anwendet. Dies ermöglicht eine robuste Generalisierung auf unbekannte Ziele und Szenarien durch das Lernen aus korrupten Eingaben unter stabilen Pseudo-Supervision.
OccuSolver: Eine Methode zur feingranularen Okklusionsbehandlung, die High-Level-Semantik (Objekt-Priors) mit Low-Level-Geometrie (Punkt-Sichtbarkeit) verbindet. Dies ermöglicht es dem Tracker, explizit zu erkennen, welche Teile eines Objekts verdeckt sind.
Tight Coupling: Die enge Kopplung zwischen dem GOT-Tracker und dem Point Tracker, bei der sich beide gegenseitig verbessern (Objekt-Priors für den Point Tracker, Sichtbarkeits-Labels für den GOT-Tracker).
Umfassende Evaluation: Validierung auf sieben Benchmarks (einschließlich AVisT, NfS, OTB-100, LaSOT, TrackingNet, GOT-10k, VOT2022) mit State-of-the-Art-Ergebnissen.

4. Ergebnisse

Die Evaluierung zeigt konsistente Verbesserungen gegenüber aktuellen Top-Methoden (wie PiVOT, LoRAT, SAMURAI, ToMP):

Generalisierung (Out-of-Distribution): Auf dem AVisT-Datensatz (schwierige Sichtbedingungen, keine Trainingsdaten) erreicht GOT-JEPA eine Success Rate (SUC) von 63,7 % und übertrifft PiVOT (62,2 %) und LoRAT (62,0 %).
Robustheit: Auf NfS und OTB-100 erzielt der Ansatz die besten SUC-Werte (70,8 % bzw. 73,2 %).
Präzision: Auf LaSOT und TrackingNet werden die höchsten Werte für Normalized Precision (NPr) und SUC erreicht (z. B. 90,6 % NPr auf TrackingNet).
Okklusionsbehandlung: Die Analyse zeigt signifikante Verbesserungen bei Attributen wie „Occlusion", „Deformation" und „Background Clutter". Der Tracker ist besser in der Lage, nach einer vollständigen Verdeckung wiederzufinden und bleibt auch bei teilweiser Verdeckung präzise.
Effizienz: Der Tracker läuft mit ca. 24–50 FPS auf einer NVIDIA RTX 4090 GPU.

5. Bedeutung und Fazit

Die Arbeit stellt einen Paradigmenwechsel dar, indem sie das Konzept des Joint-Embedding Predictive Architecture (JEPA) von der reinen Merkmalsvorhersage auf die Vorhersage ganzer Tracking-Modelle überträgt. Dies adressiert direkt das Problem der mangelnden Anpassungsfähigkeit von Trackern in dynamischen Umgebungen.

Durch die Einführung von OccuSolver wird das Problem der Okklusion nicht mehr nur als „Verlust des Ziels" betrachtet, sondern als ein fein granuliertes Problem der Sichtbarkeit von Teilregionen. Die Kombination aus modell-basiertem Lernen (GOT-JEPA) und geometrischer Sichtbarkeitsanalyse (OccuSolver) führt zu einem Tracker, der menschlicheren kognitiven Prozessen ähnelt: Er nutzt historische Informationen, passt sich an Störungen an und schließt auf Verdeckungen, was zu einer signifikant höheren Robustheit und Generalisierungsfähigkeit in realen, unvorhersehbaren Szenarien führt.

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

1. Das Problem: Der „sture" Tracker

2. Die Lösung: GOT-JEPA – Der „Trainings-Coach"

3. Der Spezialist: OccuSolver – Der „Detektiv mit Lupe"

4. Warum ist das so genial?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

A. GOT-JEPA (Joint-Embedding Predictive Architecture für Tracking)

B. OccuSolver (Okklusionslösung)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem