AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

AutoTraces: Wie Roboter die Zukunft „sehen" und verstehen lernen

Stellen Sie sich vor, Sie stehen in einer belebten Fußgängerzone. Ein Roboter muss sich durch die Menge bewegen, ohne jemanden zu berühren oder den Weg zu blockieren. Das ist für einen Computer extrem schwierig, weil Menschen unberechenbar sind: Sie stoppen plötzlich, weichen aus oder ändern ihre Richtung.

Bisher haben Roboter versucht, das zu lernen, indem sie Millionen von Versuchen und Fehlern durchspielten – wie ein Kind, das lernt, Fahrrad zu fahren, aber dabei ständig stürzt. Oder sie nutzten starre Regeln, die in chaotischen Situationen versagten.

Die Forscher von AutoTraces haben eine brillante neue Idee: Sie geben dem Roboter einen intelligenten Assistenten an die Seite, der nicht nur Zahlen berechnet, sondern denkt und versteht. Dieser Assistent ist eine Art „Super-Gelehrter" (ein großes Sprachmodell, ähnlich wie die KI, die Sie gerade lesen), der gelernt hat, wie Menschen sich in Gruppen verhalten.

Hier ist die einfache Erklärung, wie AutoTraces funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem mit den Zahlen (Der „Zettel-Notiz"-Vergleich)

Früher haben Roboter versucht, die Zukunft vorherzusagen, indem sie Zahlenreihen wie „Koordinat 1: 5,2 Meter, Koordinat 2: 3,1 Meter" in Textform umwandelten.

Das Problem: Stellen Sie sich vor, Sie müssten eine Geschichte erzählen, aber für jeden Schritt schreiben Sie die exakten Meterzahlen aus. Das wird schnell unübersichtlich, und die KI verliert den Faden. Es ist wie ein Koch, der ein Rezept schreibt, aber für jeden Gramm Salz die chemische Formel des Salzes aufschreiben muss. Es ist ineffizient und verwirrend.

2. Die Lösung: Der magische „Punkt"-Token (Der „Stempel"-Vergleich)

AutoTraces führt eine neue Art von „Stempel" ein, den sie nennen.

Wie es funktioniert: Statt lange Zahlenreihen zu schreiben, sagt die KI einfach: „Hier ist ein Punkt." Und dann fügt sie die genauen Koordinaten als eine Art unsichtbaren, aber präzisen Code direkt hinter diesen Stempel.
Der Vorteil: Die KI kann nun wie ein Mensch denken: „Ich gehe hierhin, dann dorthin." Sie behält den Fluss der Geschichte bei, anstatt sich in Zahlen zu verlieren. Das ermöglicht es ihr, nicht nur die nächsten 5 Sekunden, sondern auch die nächsten 20 Sekunden vorherzusagen, ohne den Überblick zu verlieren.

3. Der „Gedankenprozess" (Der „Detektiv"-Vergleich)

Das ist der coolste Teil: Die KI denkt laut mit!

Früher: Die KI schaute auf ein Video und spuckte einfach eine Linie aus.
Jetzt (AutoTraces): Bevor die KI die Linie zeichnet, führt sie einen Gedankenprozess (Chain-of-Thought) durch. Sie analysiert das Video wie ein Detektiv:
- „Oh, da vorne kommt eine Gruppe Menschen auf mich zu."
- „Der Weg links ist frei, aber da ist ein Hindernis."
- „Ich muss also leicht nach rechts ausweichen, dann geradeaus gehen."
Die Magie: Diese Gedanken werden nicht von Menschen mühsam aufgeschrieben, sondern die KI lernt, sie automatisch zu generieren. Sie versteht also nicht nur wo sie hingeht, sondern warum.

4. Der zweistufige Lernprozess (Der „Schüler"-Vergleich)

Die Forscher haben die KI in zwei Schritten trainiert, wie einen Schüler:

Schritt 1 (Die Theorie): Die KI schaut sich Videos an und lernt, die Situation zu beschreiben („Da ist ein Hindernis, ich weiche aus"). Sie lernt die Logik des menschlichen Verhaltens, ohne sich noch um die genauen Koordinaten zu kümmern.
Schritt 2 (Die Praxis): Jetzt lernt sie, diese Logik in echte Bewegungen umzusetzen. Sie verbindet das Verständnis der Situation mit dem Zeichnen der genauen Linie.

Warum ist das so wichtig?

Flexibilität: Frühere Roboter mussten genau wissen, wie viele Schritte sie planen sollen (z. B. genau 10). AutoTraces kann so lange planen, wie nötig ist – ob für 5 Sekunden oder 20 Sekunden.
Generalisierung: Wenn der Roboter in eine völlig neue Umgebung kommt (z. B. von einem Einkaufszentrum in einen Park), funktioniert er trotzdem gut, weil er die Logik des Verhaltens verstanden hat, nicht nur die spezifischen Daten des Trainingsortes.
Sicherheit: Da die KI die Absichten der Menschen versteht (z. B. „Die Person will links abbiegen"), kann der Roboter viel sicherer und natürlicher mitmischen.

Zusammenfassend:
AutoTraces ist wie ein Roboter, der nicht nur ein Lineal und einen Kompass hat, sondern auch ein Gehirn, das die soziale Dynamik einer Menschenmenge versteht. Er denkt mit, plant flexibel und bewegt sich so natürlich, als wäre er ein Teil der Menge, statt nur ein starrer Automat.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Vorhersage sozial konformer Trajektorien in menschenreichen Umgebungen stellt eine fundamentale Herausforderung für autonome Systeme dar. Bisherige Ansätze basieren oft auf Deep Reinforcement Learning (DRL), das jedoch aufgrund des Trial-and-Error-Lernens praktische Einschränkungen bei der Bereitstellung hat, oder auf Imitationslernen mit festen Trajektorienlängen (z. B. ViNT, NoMad).
Ein zentrales Problem besteht darin, dass bestehende Large Language Model (LLM)-basierte Methoden für Trajektorienvorhersage oft Koordinaten als reinen Text behandeln. Dies führt zu einer ineffizienten Tokenisierung (viele Tokens pro Koordinatenpaar) und einer begrenzten räumlich-zeitlichen Modellierung. Zudem fehlt es vielen Modellen an der Fähigkeit, flexible Längen vorherzusagen oder komplexe soziale Interaktionen durch visuelles Verständnis und logisches Schlussfolgern (Reasoning) zu erfassen.

2. Methodik: AutoTraces

AutoTraces ist ein autoregressives Vision-Language-Trajectory-Modell, das auf multimodalen LLMs (basierend auf LLaVa-Video) aufbaut. Der Kernansatz besteht darin, die inhärenten Schlussfolgerungsfähigkeiten von LLMs zu nutzen, um menschliches Verhalten zu modellieren.

A. Trajektorien-Tokenisierung (Key Innovation)
Statt Koordinaten als Textstrings zu generieren, führt AutoTraces ein neues Tokenisierungsschema ein:

-Token: Jeder Wegpunkt (Waypoint) wird durch ein einziges kategorisches Token <point> markiert.
Point Embeddings: Die numerischen Werte der Koordinaten ( $x, y$ ) werden nicht als Text, sondern durch einen leichten Point Encoder in Vektoren (Embeddings) umgewandelt, die in den latenten Raum des LLMs passen.
Vorteil: Dies erhält den nativen autoregressiven Generierungsmechanismus des LLMs, erweitert ihn jedoch auf physikalische Koordinatenräume. Es ermöglicht eine effiziente Verarbeitung und flexible Längen der Vorhersage.

B. Architektur und Training
Das Modell nutzt eine Zwei-Phasen-Strategie:

Encoder-Decoder-Framework: Ein visueller Encoder verarbeitet Videoeingaben, ein Point Encoder kodiert historische und Ziel-Wegpunkte. Ein Text-Prompt steuert die Aufgabe.
Zwei-Stufen-Training:
- Phase 1 (CoT Pre-Training): Das Modell lernt interpretierbare Schlussfolgerungsmuster (Chain-of-Thought), indem es aus visuellen Beobachtungen und Trajektorien strukturierte Begründungen generiert. Dies geschieht automatisiert durch ein weiteres LLM (Qwen-VL-Max), das geometrische Analysen (z. B. Krümmung, Hindernisse) durchführt, ohne manuelle Annotation.
- Phase 2 (Fine-Tuning): Das Modell wird auf die eigentliche Trajektorienvorhersage spezialisiert. Hier wird der Point-Decoder hinzugefügt, um die Embeddings zurück in physikalische Koordinaten zu übersetzen. Der Verlust wird durch eine Kombination aus Kreuzentropie (für die Sequenzstruktur) und einem direkten Regressionsverlust ( $L_{point}$ ) für die Koordinatengenauigkeit optimiert.

C. Autoregressive Generierung
Im Gegensatz zu nicht-autoregressiven Modellen, die die gesamte Zukunftsserie auf einmal vorhersagen, generiert AutoTraces Wegpunkte schrittweise. Jeder vorhergesagte Wegpunkt wird sofort wieder in die Eingabesequenz eingespeist, um den nächsten Schritt zu informieren. Dies verbessert die Langzeit-Reasoning-Fähigkeit und die Konsistenz der Trajektorie.

3. Hauptbeiträge

Neues Tokenisierungsschema: Einführung von <point>-Tokens und Point Embeddings, die LLMs ermöglichen, Trajektorien autoregressiv und effizient in physikalischem Raum zu generieren, ohne die Architektur des Basis-Transformers grundlegend zu ändern.
Automatisierte Chain-of-Thought (CoT): Ein Mechanismus zur automatischen Generierung von räumlich-zeitlichen Schlussfolgerungen aus Videos und Trajektorien, der manuelle Annotationen eliminiert und das Verständnis komplexer sozialer Interaktionen verbessert.
Flexible Längen und Generalisierung: Das Modell unterstützt Vorhersagen beliebiger Längen und zeigt starke Generalisierungsfähigkeiten über verschiedene Szenarien hinweg (innen/außen).

4. Ergebnisse

Die Evaluation erfolgte auf dem SCAND-Datensatz sowie auf den unsichtbaren Datensätzen GoStanford (innen) und RECON (außen).

Genauigkeit: AutoTraces erreicht State-of-the-Art (SOTA) Ergebnisse. Auf SCAND übertrifft es die besten Baselines (z. B. GNM, CityWalker) signifikant, insbesondere bei langen Vorhersagehorizonten (T=10).
- Beispiel T=10: L2-Fehler von 1.089m (AutoTraces) vs. 1.407m (CityWalker).
Cross-Scene Generalisierung: Auf den unsichtbaren Datensätzen (GoStanford, RECON) zeigt AutoTraces eine überlegene Generalisierung im Vergleich zu nicht-autoregressiven Modellen und rein textbasierten LLM-Ansätzen (LLaVa-Video).
Flexible Längen & Effizienz: Bei Vorhersagen über 12–20 Schritte erreicht AutoTraces eine Instruktionsausführungsrate (IEAcc) von 99,92% (vs. 40,34% bei LLaVa-Video). Zudem reduziert es den Token-Verbrauch pro Antwort (TPR) drastisch (25 Tokens vs. 375 bei textbasierten Methoden), was die Rechenkosten senkt.
Ablationsstudien: Die Entfernung des CoT-Moduls oder die Verwendung reiner Text-Tokenisierung führt zu messbaren Einbußen, was die Notwendigkeit beider Komponenten unterstreicht.

5. Bedeutung und Fazit

AutoTraces demonstriert, dass die Kombination aus multimodalen LLMs, einer spezialisierten Tokenisierung für physikalische Koordinaten und automatisiertem logischem Schlussfolgern (CoT) ein mächtiges Paradigma für die Robotik darstellt.

Überwindung von Limitierungen: Es löst das Problem der ineffizienten Text-Tokenisierung und der starren Längenbegrenzung bestehender Imitationslern-Modelle.
Soziale Intelligenz: Durch die Integration von CoT kann das Modell komplexe soziale Dynamiken (wie Ausweichen oder Kurvenfahren) besser verstehen und vorhersagen als rein datengetriebene Ansätze ohne Reasoning.
Praktische Anwendbarkeit: Die Fähigkeit, mit wenigen Fine-Tuning-Daten auf neue Domänen zu adaptieren und flexible Vorhersagen zu treffen, macht das System besonders geeignet für den Einsatz in dynamischen, menschenreichen Umgebungen wie Einkaufszentren oder Campusgeländen.

Zusammenfassend bietet AutoTraces einen neuen Standard für die Trajektorienvorhersage, der die Lücke zwischen der generativen Kraft von LLMs und den Anforderungen an präzise, physikalisch korrekte Robotiksteuerung schließt.

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

1. Das Problem mit den Zahlen (Der „Zettel-Notiz"-Vergleich)

2. Die Lösung: Der magische „Punkt"-Token (Der „Stempel"-Vergleich)

3. Der „Gedankenprozess" (Der „Detektiv"-Vergleich)

4. Der zweistufige Lernprozess (Der „Schüler"-Vergleich)

Warum ist das so wichtig?

1. Problemstellung

2. Methodik: AutoTraces

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes