Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "perfekte" aber nutzlose Plan

Stell dir vor, du bist ein Polizist, der einen flüchtigen Dieb verfolgt. Der Dieb rennt durch eine Gasse.

Der alte Weg (die bisherigen Methoden): Dein Assistent schaut nur auf die letzten paar Schritte des Diebes und sagt: "Okay, er läuft gerade geradeaus, also wird er in 5 Sekunden bei diesem Laternenpfahl sein."
- Das Problem: Der Dieb macht plötzlich eine scharfe Kurve oder bremst ab. Dein Assistent hat das nicht gesehen. Aber schlimmer noch: Selbst wenn er recht hätte, könnte dein Assistent dir sagen: "Lauf zum Laternenpfahl!" – aber du bist zu langsam oder hast zu wenig Kraft, um dort in 5 Sekunden anzukommen. Der Plan war mathematisch "richtig", aber für dich als Verfolger unmöglich umzusetzen.

Die Forscher sagen: Bisherige Drohnen-Systeme machen genau das. Sie sind super gut darin, zu sehen, wo eine Drohne war, aber sie planen die Verfolgung so schlecht, dass sie in 99,9 % der Fälle einen Plan liefern, den keine echte Drohne physikalisch einhalten könnte. Das ist, als würde man einem Rennwagen sagen, er soll in 1 Sekunde von 0 auf 1000 km/h beschleunigen – theoretisch berechnet, aber physikalisch unmöglich.

Die Lösung: "Perception-to-Pursuit" (P2P)

Die Autoren haben ein neues System namens P2P entwickelt. Man kann es sich wie einen erfahrenen Rennstrecken-Strategen vorstellen, der nicht nur schaut, wo das Auto ist, sondern fühlt, wie es fährt.

1. Der "Bewegungs-Fingerabdruck" (Motion Tokens)

Statt sich nur die Bilder der Drohne anzusehen (wie ein Fotoalbum), wandelt P2P die Bewegung in eine Art 8-dimensionalen "Bewegungs-Fingerabdruck" um.

Vergleich: Stell dir vor, du beschreibst jemanden nicht nur durch sein Gesicht (Aussehen), sondern durch seine Art zu laufen: "Er humpelt leicht, beschleunigt plötzlich, wird kleiner (entfernt sich) und zittert ein bisschen."
Dieses System erfasst: Geschwindigkeit, Beschleunigung, Größe und wie "glatt" die Bewegung ist. Es ignoriert das Aussehen der Drohne komplett und konzentriert sich nur darauf, wie sie sich bewegt.

2. Der "Zeit-Maschinen"-Denker (Transformer)

Das System nutzt eine künstliche Intelligenz (einen "Transformer"), die wie ein Schachgroßmeister denkt.

Ein normaler Tracker schaut nur auf den nächsten Zug.
P2P schaut sich die letzte Minute der Bewegung an (12 Frames) und denkt voraus: "Ah, die Drohne beschleunigt gerade stark nach links. Das sieht nach einer Ausweichmanöver aus, nicht nach einer geraden Linie."
Es sagt nicht nur: "Da wird sie sein." Es sagt: "Da wird sie sein, UND ich kann sie dort erreichen, weil ich weiß, wie schnell ich selbst bin."

3. Der neue Maßstab: "Erfolgsquote der Abfangung" (ISR)

Das ist der wichtigste Teil der Arbeit. Bisher haben Forscher nur gemessen: "Wie nah war die Vorhersage am echten Ort?" (Pixel-Fehler).

P2P führt einen neuen Test ein: "Kann ich diese Vorhersage tatsächlich einholen?"
Die Metapher: Stell dir vor, du wirfst einen Ball.
- Alter Test: "Wie genau hast du den Ball geworfen?" (Er landete 10 cm daneben).
- Neuer Test (ISR): "Konntest du den Ball überhaupt fangen, bevor er den Boden berührt hat?"
- Das Ergebnis: Die alten Systeme haben in 99,9 % der Fälle einen Ball geworfen, den niemand fangen konnte. P2P schafft es in 60 % der Fälle, einen fangbaren Ball zu werfen. Das ist eine riesige Verbesserung!

Was haben sie herausgefunden?

Bewegung sagt mehr als Aussehen: Das System konnte Drohnen zu 100 % korrekt erkennen, nur basierend auf ihrer Bewegung, ohne jemals ein Foto der Drohne gesehen zu haben. Das ist, als würdest du einen Freund erkennen, nur weil er so geht, wie er immer geht, auch wenn er eine Maske trägt.
Geschwindigkeit ist alles: Das System ist so schnell (323 Bilder pro Sekunde), dass es in Echtzeit funktioniert. Es ist schneller als ein Blinzeln.
Der Unterschied ist gewaltig: Im Vergleich zu alten Methoden ist die Vorhersage 77 % genauer und die Chance, die Drohne tatsächlich zu fangen, 597-mal höher.

Zusammenfassung in einem Satz

Das neue System ist wie ein Verfolger, der nicht nur sieht, wohin die Drohne fliegt, sondern auch spürt, wohin sie will und ob er sie überhaupt einholen kann – und zwar so schnell und präzise, dass er die Verfolgungsjagd nicht nur plant, sondern tatsächlich gewinnt.

Es schließt die Lücke zwischen "Ich sehe etwas" (Wahrnehmung) und "Ich kann es jagen" (Verfolgung), indem es die Physik der Bewegung in den Mittelpunkt stellt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit adressiert eine kritische Lücke in autonomen Drohnen-Abwehrsystemen: Die Diskrepanz zwischen Detektion/Verfolgung und praktikabler Verfolgung (Pursuit).

Das Kernproblem: Bestehende Tracking-Methoden optimieren zwar die Vorhersagegenauigkeit von Trajektorien, ignorieren jedoch die kinematischen Grenzen des Verfolger-Drohne (Interceptors).
Die Konsequenz: Selbst wenn eine Vorhersage statistisch genau ist (hindsight), ist sie oft physisch nicht einholbar, da der Interceptor die vorhergesagten Positionen aufgrund von Geschwindigkeits- ( $v_{max}$ ) und Beschleunigungslimits ( $a_{max}$ ) nicht erreichen kann.
Erkenntnis der Autoren: State-of-the-Art-Methoden liefern in 99,9 % der Fälle Vorhersagen, die für eine autonome Verfolgung unbrauchbar sind, da sie keine „pursuit-feasible" (verfolgungsfähigen) Trajektorien generieren.

2. Methodik: Perception-to-Pursuit (P2P)

Das vorgestellte Framework P2P ist ein track-zentrisches, zeitliches Reasoning-System, das Detektion und Verfolgungsplanung verbindet.

A. Motion Token Repräsentation

Statt rohe Bildpixel oder nur Bounding-Box-Koordinaten zu verwenden, komprimiert P2P die Bewegungsinformationen in 8-dimensionale Motion Tokens. Diese Tokens kodieren physikalisch interpretierbare Merkmale:

Position: $(x_t, y_t)$ im Bildkoordinatensystem.
Geschwindigkeit: $(v_x, v_y)$ , berechnet über Finite-Differenzen.
Beschleunigung: $(a_x, a_y)$ , zweite Ableitung der Bewegung.
Skalierung: $s = \sqrt{w_t \cdot h_t}$ (Proxy für Objektgröße).
Glätte: $\sigma$ (Standardabweichung der Trajektorie über ein 5-Fenster), um Stabilität zu messen.

B. Architektur: Causaler Transformer

Ein 12-Frames-Causaler Transformer verarbeitet die Sequenz dieser Motion Tokens.

Eingabe: Eine Sequenz von 12 Tokens (Fenster $W=12$ ).
Verarbeitung: Der Transformer nutzt Self-Attention mit causaler Maske, um autoregressive Vorhersagen zu treffen, die nur vergangene und aktuelle Informationen nutzen.
Multi-Task-Learning: Das Netzwerk hat vier Ausgabeköpfe, die gemeinsam trainiert werden:
1. Drohnendiskriminierung: Binäre Klassifikation (Drohne vs. Nicht-Drohne).
2. Verhaltensklassifikation: 5 Klassen (Hover, Loiter, Approach, Evade, Pass-by).
3. Intent-Schätzung: Skalar für die Aggressivität der Manöver.
4. Trajektorievorhersage: Vorhersage der zukünftigen Positionen über einen Horizont von 20 Frames ( $H=20$ ).

C. Trainingsziel

Die Verlustfunktion ist eine gewichtete Summe aus vier Komponenten:
$\mathcal{L} = w_d \mathcal{L}_{drone} + w_b \mathcal{L}_{behavior} + w_i \mathcal{L}_{intent} + w_t \mathcal{L}_{traj}$
Dies ermöglicht es dem Modell, aus Verhaltens- und Intent-Priors zu lernen, um physikalisch konsistentere Trajektorien vorherzusagen.

3. Schlüsselbeiträge

Verfolgungsbewusstes zeitliches Reasoning:
Einführung einer Architektur, die nicht nur die Position, sondern die Absicht und Physik der Bewegung modelliert, um kinematisch machbare Abfangkurven zu ermöglichen. Im Gegensatz zu appearance-basierten Methoden funktioniert dies im „Open-World"-Szenario ohne vorherige Objektmodelle.
Metrik: Intercept Success Rate (ISR):
Einführung einer neuen Metrik, die den Anteil der Vorhersagen misst, die unter realistischen Interceptor-Bedingungen ( $v_{max}=15$ m/s, $a_{max}=5$ m/s²) einholbar sind. Die Machbarkeit wird mittels „Bang-Bang"-Optimalsteuerung (minimale Zeit zur Erreichung einer Distanz) berechnet.
- ISR = 1.0: Alle Vorhersagen sind einholbar.
- ISR = 0.0: Keine Vorhersage ist einholbar.
Empirische Validierung:
Umfassende Tests auf dem Anti-UAV-RGBT-Datensatz (226 reale Drohnen-Sequenzen), die zeigen, dass reine Genauigkeit nicht ausreicht und dass zeitliches Reasoning entscheidend ist.

4. Ergebnisse

Die Evaluation auf dem Testset (8.092 Beispiele) zeigt drastische Verbesserungen gegenüber Baselines (Frame-basiert, Tracking Only, Naive Velocity):

Metrik	Tracking Only / Naive	P2P (Ours)	Verbesserung
ADE (Average Displacement Error)	122,83 Pixel	28,12 Pixel	77 % Reduktion
ISR (Intercept Success Rate)	0,001 (0,1 %)	0,597	597-fache Steigerung
Klassifikationsgenauigkeit	0 %	100 %	Perfekte Diskriminierung

Bedeutung der ISR: Während Baselines in 99,9 % der Fälle unmögliche Verfolgungspläne generieren (ISR ≈ 0,001), ermöglicht P2P in fast 60 % der Fälle eine physikalisch machbare Verfolgung.
Open-World-Fähigkeit: Die Methode erreicht 100 % Genauigkeit bei der Unterscheidung von Drohnen ohne visuelle Merkmale (Appearance), rein basierend auf Bewegungsmustern.
Echtzeitfähigkeit: Das System läuft auf einer NVIDIA T4 GPU mit 323 FPS (End-to-End-Latenz 3,1 ms), was für autonome Verfolgungsaufgaben ausreichend ist.

5. Bedeutung und Fazit

Das Paper demonstriert, dass temporales Reasoning über Bewegungsmuster der Schlüssel ist, um die Lücke zwischen Wahrnehmung (Perception) und handlungsfähiger Planung (Actionable Pursuit) zu schließen.

Paradigmenwechsel: Es zeigt, dass reine Vorhersagegenauigkeit (Accuracy) für autonome Systeme irreführend sein kann, wenn die physikalische Machbarkeit (Feasibility) ignoriert wird.
Generalisierung: Die Fähigkeit, Drohnen rein durch Bewegungsmuster zu erkennen, deutet darauf hin, dass motion-basierte Ansätze robuster gegenüber neuen Objekttypen sein könnten als rein appearance-basierte Methoden.
Anwendbarkeit: Die vorgestellte Methodik und die ISR-Metrik sind nicht nur auf Drohnen beschränkt, sondern relevant für jedes autonome System, das physisch machbare Vorhersagen für Verfolgungs- oder Kollisionsvermeidungsaufgaben benötigt.

Zusammenfassend bietet P2P einen prinzipiellen, end-to-end Ansatz für autonome Drohnen-Abwehrsysteme, der sicherstellt, dass Vorhersagen nicht nur „richtig", sondern auch „machbar" sind.