X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving

Das Paper stellt X-World vor, ein steuerbares, egozentrisches Multi-Kamera-Weltmodell, das zukünftige Video-Streams basierend auf Aktionssequenzen und optionalen Szenenkontrollen generiert, um skalierbare und reproduzierbare Evaluierungen für autonomes Fahren zu ermöglichen.

Chaoda Zheng, Sean Li, Jinhao Deng, Zhennan Wang, Shijia Chen, Liqiang Xiao, Ziheng Chi, Hongbin Lin, Kangjie Chen, Boyang Wang, Yu Zhang, Xianming Liu

Veröffentlicht 2026-03-23
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie könnten eine unendliche, interaktive Filmsequenz drehen, in der Sie der Regisseur sind. Sie entscheiden: „Jetzt biegen wir links ab!" oder „Plötzlich regnet es und ein Fußgänger läuft über die Straße!" – und der Film passt sich sofort an, als wäre es echt.

Das ist im Grunde X-World, ein neues Werkzeug von XPeng, das die Zukunft des autonomen Fahrens revolutionieren soll. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Warum wir nicht nur auf der echten Straße testen können

Autonome Autos lernen heute oft wie ein Kind: Sie schauen sich riesige Mengen an Videos an und lernen daraus, wie man fährt. Aber um zu prüfen, ob das Auto wirklich sicher ist, müsste man es millionenfach auf echten Straßen fahren lassen.

  • Das ist teuer: Benzin, Fahrer, Zeit.
  • Das ist gefährlich: Man kann nicht einfach absichtlich Unfälle provozieren, um zu sehen, wie das Auto reagiert.
  • Das ist unfair: Man kommt nicht an alle möglichen Szenarien (z. B. ein Bär läuft über die Autobahn bei Schneesturm).

Bisherige Simulatoren sind wie Papp-Modelle: Sie sehen aus wie Autos, aber sie fühlen sich nicht echt an. Wenn das echte Auto eine Kurve fährt, sieht der Simulator vielleicht aus, als würde er durch eine Wand fahren.

2. Die Lösung: X-World – Der „Zukunfts-Kristall"

X-World ist kein Papp-Modell, sondern ein künstlicher Intelligenz-Träumer. Es ist ein System, das nicht nur berechnet, wo das Auto ist, sondern echte Videos der Zukunft erzeugt.

Stellen Sie sich X-World wie einen magischen Kristallball vor, der aber nicht nur eine Kugel zeigt, sondern sieben Kameras gleichzeitig (vorne, hinten, links, rechts, weitwinkel, eng).

  • Der Input: Sie geben dem Kristallball zwei Dinge:
    1. Was gerade passiert (die letzten 10 Sekunden Video aus allen Kameras).
    2. Was das Auto als Nächstes tun soll (z. B. „Gas geben", „Links abbiegen").
  • Der Output: Der Kristallball projiziert sofort ein neues, realistisches Video der nächsten Sekunden. Es sieht aus wie ein echter Film, mit Schatten, Reflexionen und Bewegung.

3. Die besonderen Fähigkeiten (Die „Zauberkünste")

A. Der Gehorsame Regisseur (Steuerung)

Wenn Sie im Simulator sagen: „Das Auto soll jetzt links abbiegen", dann biegt das Auto im Video auch links ab. Es ist nicht so, dass das Auto einfach geradeaus fährt und Sie nur den Hintergrund ändern. Die Bewegung ist physikalisch korrekt. Das ist wie ein Schauspieler, der genau tut, was der Regisseur sagt.

B. Die Marionetten-Steuerung (Verkehrsteilnehmer)

Das Besondere: Sie können auch andere Akteure steuern.

  • Szenario: Sie wollen testen, wie das Auto auf einen plötzlichen Fußgänger reagiert.
  • X-World: Sie sagen dem Simulator: „Füge einen Fußgänger hinzu, der aus dem Schatten springt."
  • Ergebnis: Der Simulator generiert sofort ein Video, in dem der Fußgänger genau dort auftaucht, und das autonome Auto reagiert darauf (bremst oder weicht aus). Alles sieht echt aus.

C. Der Zeit- und Wetter-Zauber (Stil-Transfer)

Sie können das Video auch umstylen, ohne die Handlung zu ändern.

  • Szenario: Sie haben ein Video von einem sonnigen Tag in China.
  • X-World: Sie sagen: „Mach daraus einen regnerischen Abend in Berlin."
  • Ergebnis: Das Auto fährt immer noch genau so, aber plötzlich regnet es, die Straßen sind nass, die Laternen leuchten anders und die Gebäude sehen aus wie in Deutschland. Das hilft, das Auto für den Weltmarkt zu trainieren, ohne neue Daten aus Berlin sammeln zu müssen.

4. Warum ist das so wichtig? (Der „Flugzeug-Flugsimulator"-Vergleich)

Stellen Sie sich vor, Piloten würden nur durch echtes Fliegen lernen. Das wäre zu gefährlich und zu teuer. Deshalb nutzen sie Flugsimulatoren.

  • Frühere Simulatoren waren wie Flugzeuge aus Pappe: Sie sahen gut aus, aber wenn man sie schüttelte, fiel das Cockpit auseinander.
  • X-World ist wie ein High-End-Flugsimulator: Wenn Sie den Hebel ziehen, neigt sich das Flugzeug, die Wolken ziehen vorbei, und Sie spüren die G-Kräfte (in diesem Fall sehen Sie die G-Kräfte in den Videos).

Dank X-World können die Entwickler des autonomen Fahrens:

  1. Unfälle simulieren: Sie können tausende gefährliche Situationen (Blitzeis, irre Fußgänger) in Sekunden erstellen, ohne jemanden zu verletzen.
  2. Schneller lernen: Das Auto kann in diesem Simulator Millionen von Kilometern fahren, während es in der echten Welt nur wenige Kilometer schafft.
  3. Fehler finden: Wenn das Auto im Simulator eine rote Ampel überfährt, wissen die Entwickler sofort, dass sie den Code verbessern müssen – und das kostet kein Benzin.

Zusammenfassung

X-World ist ein künstlicher, videobasierter Simulator, der die Zukunft des autonomen Fahrens vorhersagt. Es ist wie ein unendlicher Filmstudio, in dem Sie Regie führen können. Sie bestimmen die Handlung (das Fahren), die Schauspieler (andere Autos/Fußgänger) und das Set (Wetter/Ort). Das System erstellt dann sofort einen perfekten, realistischen Film darüber, was als Nächstes passiert.

Dies ermöglicht es, autonome Fahrzeuge sicherer, schneller und billiger zu entwickeln, indem sie in einer virtuellen Welt trainieren, die so echt ist, dass man sie kaum von der Realität unterscheiden kann.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →