TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Die Arbeit stellt TAPFormer vor, einen Transformer-basierten Ansatz, der durch eine neuartige asynchrone Fusion von Einzelbildern und Event-Daten sowie eine adaptive gewichtete Kreuzmodalitätsfusion eine robuste und präzise Verfolgung beliebiger Punkte auch unter schwierigen Bedingungen wie Bewegungsunschärfe oder schwacher Beleuchtung ermöglicht.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einen einzelnen Punkt auf einem sich schnell bewegenden Objekt – sagen wir, einen Punkt auf einem rennenden Hund oder einem vorbeifliegenden Ball – über einen langen Zeitraum hinweg genau zu verfolgen. Das ist für Computer extrem schwierig.

Hier ist die Geschichte von TAPFormer, einem neuen KI-System, das dieses Problem löst, indem es zwei völlig unterschiedliche „Augen" kombiniert.

1. Das Problem: Warum normale Kameras und Event-Kameras allein scheitern

Um das zu verstehen, müssen wir uns zwei Arten von Kameras vorstellen:

  • Die normale Kamera (RGB): Sie macht Fotos, wie wir sie kennen. Sie ist toll darin, Details zu sehen: die Farbe des Hundes, die Textur des Balls. Aber sie hat einen Haken: Sie macht nur etwa 24 bis 30 Bilder pro Sekunde. Wenn sich etwas sehr schnell bewegt, werden diese Bilder verschwommen (wie bei einem Foto, das man bei schlechtem Licht macht). Die Kamera „verpasst" die schnellen Bewegungen zwischen den Bildern.
  • Die Event-Kamera: Diese ist wie ein Superheld für Bewegung. Sie nimmt kein Bild, sondern registriert jede winzige Helligkeitsänderung an jedem Pixel mit Mikrosekunden-Genauigkeit. Sie sieht Bewegungen, die für das menschliche Auge zu schnell sind, und funktioniert auch bei extrem hellem Licht oder tiefer Dunkelheit. Aber sie hat einen Nachteil: Sie sieht keine Farben und keine klaren Formen. Es ist wie ein Bild aus Tausenden von winzigen Punkten, die nur sagen: „Hier hat sich etwas bewegt!" Ohne Farben oder Texturen ist es schwer zu sagen, was sich bewegt.

Das Dilemma:
Wenn Sie nur die normale Kamera nutzen, verlieren Sie den Punkt bei schneller Bewegung aus den Augen (wegen der Unschärfe). Wenn Sie nur die Event-Kamera nutzen, wissen Sie, dass sich etwas bewegt, aber nicht genau, wo es ist oder was es ist (wegen fehlender Details).

Bisherige Versuche, diese beiden zu kombinieren, waren wie das Versuch, zwei Menschen zu einem Gespräch zu zwingen, die völlig unterschiedliche Rhythmen haben. Der eine spricht langsam (die Kamera), der andere redet in einem Blitztempo (die Event-Kamera). Das Ergebnis war oft chaotisch und ungenau.

2. Die Lösung: TAPFormer – Der perfekte Übersetzer

TAPFormer ist wie ein genialer Dirigent, der zwei Orchester (das langsame und das schnelle) zu einem perfekten Symphoniekonzert vereint. Es nutzt zwei clevere Tricks:

Trick 1: Der „Zeit-Brückenbauer" (Transient Asynchronous Fusion)

Stellen Sie sich vor, die normale Kamera macht ein Foto. In der kurzen Zeit zwischen zwei Fotos passiert aber noch viel. Die Event-Kamera liefert hier ständig Updates: „Der Hund hat sich jetzt 1 Millimeter nach links bewegt, dann 2 Millimeter nach oben."

TAPFormer nimmt das letzte Foto und füllt die Lücken bis zum nächsten Foto mit den schnellen Updates der Event-Kamera. Es baut eine Brücke in der Zeit.

  • Analogie: Stellen Sie sich vor, Sie zeichnen eine Linie (das Foto). Dazwischen sind Lücken. Ein anderer Freund (die Event-Kamera) sagt Ihnen genau, wie die Linie in den Lücken verlaufen muss. TAPFormer verbindet diese Informationen so flüssig, dass es aussieht, als würde die Linie sich in Echtzeit bewegen, obwohl die Kamera nur langsam zeichnet. So kann es den Punkt auch zwischen den Fotos verfolgen.

Trick 2: Der „Vertrauens-Manager" (Cross-modal Locally Weighted Fusion)

Nicht überall ist die eine Kamera besser als die andere.

  • Bei einem schnellen, unscharfen Bild ist die Event-Kamera der Held.
  • In einer ruhigen, gut beleuchteten Szene ist die normale Kamera der Held.

TAPFormer schaut sich jeden kleinen Bereich des Bildes an und fragt sich: „Wer hat hier gerade die besseren Informationen?"

  • Analogie: Es ist wie ein Team aus zwei Detektiven. Wenn einer von ihnen durch Nebel (Bewegungsunschärfe) nicht mehr sehen kann, vertraut das Team sofort dem anderen, der durch den Nebel hindurchsehen kann. TAPFormer passt sich dynamisch an und nutzt genau die Information, die gerade am verlässlichsten ist.

3. Warum ist das so wichtig?

Mit diesem System kann der Computer Punkte verfolgen, die:

  • Sich extrem schnell bewegen (wie ein Rennauto).
  • In der Dunkelheit oder bei grellem Sonnenlicht sind.
  • Sich teilweise verbergen (wenn ein Hund hinter einem Baum verschwindet und wieder auftaucht).

Die Autoren haben sogar eine neue Datenbank mit echten Videos erstellt, um zu beweisen, dass ihr System funktioniert. In Tests schlug TAPFormer alle bisherigen Methoden deutlich.

Zusammenfassung in einem Satz

TAPFormer ist wie ein unsichtbarer, super-schneller Assistent, der die klaren, aber langsamen Bilder einer normalen Kamera mit den blitzschnellen, aber unscharfen Bewegungen einer Event-Kamera verschmilzt, um jeden Punkt auf einem Video präzise zu verfolgen – egal wie schnell, dunkel oder chaotisch die Szene ist.

Es ist ein großer Schritt hin zu Robotern und autonomen Fahrzeugen, die die Welt so schnell und sicher sehen können, wie wir es uns wünschen.