Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization

Die vorgestellte Arbeit führt die attenuierte Residual-Policy-Optimierung (α\alpha-RPO) ein, eine effiziente Methode für das autonome Rennsport, die durch schrittweise Verdrängung einer Basis-Policy und privilegiertes Lernen die Systemkomplexität reduziert und gleichzeitig die Fahrleistung in Simulation und realer Welt im Vergleich zu bestehenden Ansätzen verbessert.

Raphael Trumpp, Denis Hoornaert, Mirco Theile, Marco Caccamo

Veröffentlicht 2026-03-16
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Ziel: Ein autonomes Rennauto, das wirklich allein fährt

Stell dir vor, du möchtest einem Roboter-Auto beibringen, so schnell wie möglich eine Rennstrecke zu fahren, ohne dass es gegen die Wand fährt. Das ist extrem schwierig, weil die Welt unvorhersehbar ist.

Früher haben Forscher einen Trick benutzt: Sie gaben dem Roboter einen strikten Trainer (einen klassischen Algorithmus), der ihm sagt: „Fahr hier geradeaus, bremse dort". Der Roboter (ein KI-Modell) durfte dann nur kleine Korrekturen machen. Das funktionierte gut, hatte aber zwei große Nachteile:

  1. Der Roboter war immer noch vom Trainer abhängig. Ohne Trainer konnte er nicht fahren.
  2. Der Trainer brauchte oft teure Sensoren (wie eine genaue Landkarte), die im echten Leben nicht immer verfügbar oder zu langsam waren.

Die neue Lösung: „α-RPO" (Der abklingende Lehrer)

Die Autoren dieser Studie haben eine neue Methode namens α-RPO entwickelt. Das klingt kompliziert, ist aber im Kern eine geniale Idee des „Abklingens".

Stell dir das so vor:

  1. Der Anfang (Der strenge Lehrer): Am Anfang des Trainings hat das KI-Auto einen sehr erfahrenen, aber etwas starren Fahrlehrer an Bord (den „Base Policy"). Dieser Lehrer kennt die Strecke und sagt dem Auto genau, was zu tun ist. Das KI-Modell lernt davon, wie man überhaupt erst fährt, ohne sofort zu crashen.
  2. Der Prozess (Der Lehrer zieht sich zurück): Das Besondere an α-RPO ist, dass der Lehrer langsam leiser wird. Während das KI-Modell immer besser wird, nimmt die Stimme des Lehrers ab.
    • Analogie: Stell dir vor, du lernst Fahrrad fahren. Am Anfang hält dich jemand fest am Sattel. Aber je besser du wirst, desto lockerer wird er die Hand. Irgendwann lässt er dich komplett los.
  3. Das Ende (Der Solo-Fahrer): Am Ende des Trainings ist der Lehrer ganz weg. Das KI-Modell fährt nun allein. Es hat die Lektionen gelernt, muss aber niemanden mehr fragen. Es ist ein eigenständiger, schlauer Fahrer.

Warum ist das so toll? (Die Vorteile)

  • Schneller und einfacher: Da am Ende kein Lehrer mehr mitläuft, muss das Auto im echten Leben nicht mehr zwei Systeme gleichzeitig berechnen (Lehrer + Schüler). Das spart Rechenleistung und macht das Auto schneller.
  • Bessere Anpassung: Ein starrer Lehrer kann manchmal zu vorsichtig sein. Da das KI-Modell am Ende allein entscheidet, kann es mutigere Linien fahren und schneller werden, als der Lehrer es je erlaubt hätte.
  • Privilegiertes Lernen: Der Lehrer durfte während des Trainings Dinge sehen (wie eine perfekte Landkarte), die das Auto im echten Rennen gar nicht hat. Da der Lehrer am Ende aber weg ist, muss das KI-Modell lernen, nur mit dem zu arbeiten, was es wirklich hat (z. B. einen Laserscanner). Das macht es robuster für die echte Welt.

Der „Synchronisations-Trick" (Damit es nicht verrückt wird)

Es gibt ein Problem: Wenn man dem Lehrer während des Trainings plötzlich die Lautstärke runterdreht, verwirrt das den Schüler. Er denkt: „Moment, warum sagt der Lehrer plötzlich was anderes?"

Die Autoren haben einen cleveren Trick gefunden (den „Synchronisations-Trick"). Sie sorgen dafür, dass das KI-Modell genau weiß, dass sich die Regeln gerade ändern. Es ist, als würde der Lehrer dem Schüler sagen: „Ich werde jetzt leiser, aber du musst trotzdem so tun, als ob ich noch laut wäre, während du die Daten sammelst." Das verhindert, dass das Training instabil wird oder das Auto verwirrt ist.

Das Ergebnis im echten Leben

Die Forscher haben das mit echten 1:10-Modellautos (Roboracer) getestet.

  • In der Simulation: Das α-RPO-Auto war schneller und hatte weniger Unfälle als alle anderen Methoden.
  • In der echten Welt: Das war der Clou. Sie haben das Auto, das nur in der Simulation trainiert wurde, direkt auf eine echte Rennstrecke in München geschickt (Zero-Shot Transfer). Ohne weitere Anpassung!
    • Das Ergebnis? Das Auto fuhr die Strecke extrem schnell, weichte Hindernissen aus und fuhr fast so schnell wie in der Simulation.
    • Es brauchte dafür nur einen winzigen Computer an Bord und reagierte blitzschnell.

Fazit

Die Studie zeigt, wie man einem Roboter beibringt, ein Meisterfahrer zu sein, indem man ihm erst einen Trainer gibt und ihn dann langsam allein lässt. Das Ergebnis ist ein autonomes System, das nicht nur schnell ist, sondern auch einfach zu bauen, billig im Betrieb und bereit für die echte Welt.

Kurz gesagt: Ein Lehrer, der weiß, wann er gehen muss, damit der Schüler zum Meister wird.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →