CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Besserwisser"-Roboter

Stell dir vor, du hast einen sehr intelligenten Roboter-Beifahrer, der ein selbstfahrendes Auto steuern soll. Dieser Roboter ist extrem schlau: Er kann die Straße sehen, verstehen, was passiert, und sogar in ganzen Sätzen erklären, warum er gerade bremst oder beschleunigt.

Das Problem ist: Er lügt vielleicht.

Bisher haben wir nur geschaut, ob der Roboter sicher ankommt (wie ein Schüler, der die Matheaufgabe richtig gelöst hat). Aber wir haben nicht geprüft, warum er das gemacht hat.

Hat er gebremst, weil er einen Menschen gesehen hat? (Gute Antwort!)
Oder hat er gebremst, weil er einfach nur zufällig gebremst hat, und die Erklärung „Ich habe gebremst, weil da ein Mensch war" nur hinterher erfunden, um gut auszusehen? (Das wäre wie ein Schüler, der die Lösung aufschreibt, aber den Lösungsweg nicht versteht).

In der Welt der KI nennt man das „Post-hoc-Rationalisierung": Die KI trifft eine Entscheidung (vielleicht basierend auf versteckten Mustern) und erfindet dann eine nette Geschichte dazu, die menschlich klingt. Das ist gefährlich, denn wir wollen wissen, ob der Roboter wirklich auf menschliche Werte (wie Sicherheit, Höflichkeit oder Effizienz) reagiert.

Die Lösung: CARE-Drive (Der „Wahrheits-Test")

Die Forscher von der TU Delft haben einen neuen Test entwickelt, der CARE-Drive heißt. Man kann sich das wie einen Lügendetektor für Roboter-Entscheidungen vorstellen.

Das Ziel ist es, herauszufinden: Reagiert der Roboter wirklich auf die Gründe, die wir ihm geben, oder macht er einfach nur, was er will?

Wie funktioniert der Test? (Die zwei Phasen)

Stell dir vor, du trainierst einen Hund, der nicht nur „Sitz" macht, sondern auch versteht, warum er sitzen soll.

Phase 1: Der Einstellungs-Check (Kalibrierung)
Zuerst müssen wir sicherstellen, dass der Roboter überhaupt zuhört. Wir geben ihm eine Aufgabe: „Überhole den Radfahrer."

Ohne extra Hinweise sagt der Roboter oft: „Nein, das ist verboten (doppelte gelbe Linie)." Er ist zu strikt.
Dann geben wir ihm die „menschlichen Gründe" als Hinweis: „Aber denk an den Komfort des Radfahrers und die Effizienz, wenn es sicher ist."
Der Test: Ändert sich die Entscheidung des Roboters? Wenn ja, gut! Wir haben einen „Hörigen" Roboter gefunden. Wenn nein, ist er stur und für diesen Test ungeeignet.

Phase 2: Der Stress-Test (Kontext-Änderung)
Jetzt, wo wir wissen, dass der Roboter zuhört, stellen wir die Umgebung ein wenig auf den Kopf, um zu sehen, wie sensibel er ist. Wir ändern kleine Details:

Szenario A: Ein Auto kommt von vorne. (Sicherheits-Check)
Szenario B: Ein Auto hupt hinter uns. (Sozialer Druck-Check)
Szenario C: Der Passagier im Auto hat es eilig. (Effizienz-Check)

Wir schauen dann genau hin: Ändert der Roboter sein Verhalten, wenn sich diese Gründe ändern?

Wenn er bei einem herannahenden Auto bremst, aber bei einem hupenden Auto überholt, dann versteht er die Situation wirklich.
Wenn er sich trotzdem nicht ändert, dann war seine vorherige Erklärung nur eine Fassade.

Was haben sie herausgefunden?

Die Ergebnisse waren spannend und ein bisschen gemischt:

Der Roboter kann lernen: Wenn man ihm klare menschliche Gründe gibt (z. B. „Sicherheit geht vor, aber sei nicht zu unflexibel"), trifft er bessere Entscheidungen, die eher denen von menschlichen Experten ähneln.
Er ist nicht überall gleich schlau:
- Sicherheit: Hier ist er super sensibel. Wenn die Gefahr steigt (ein Auto kommt von vorne), bremst er sofort. Das ist gut!
- Sozialer Druck: Wenn ein Auto hinter ihm hupt, überholt er eher. Das ist auch menschlich (wir mögen es nicht, wenn andere uns drängen).
- Eile: Hier wurde es seltsam. Wenn der Passagier sagte „Ich habe es eilig!", wurde der Roboter vorsichtiger und überholte nicht. Eigentlich sollte Eile ja zum Überholen animieren. Der Roboter dachte wohl: „Eile ist gefährlich, also bleib ich lieber stehen." Das zeigt, dass er noch nicht perfekt versteht, wie wir Menschen Prioritäten setzen.

Warum ist das wichtig?

Stell dir vor, du vertraust deinem selbstfahrenden Auto dein Leben an. Du willst nicht nur wissen, dass es sicher ankommt. Du willst wissen, dass es menschlich denkt.

CARE-Drive ist wie ein Werkzeugkasten, mit dem wir prüfen können:

Ist der Roboter ein echter Partner, der unsere Werte versteht?
Oder ist er nur ein Schauspieler, der eine gute Show abzieht, aber im Hintergrund andere, unbekannte Regeln befolgt?

Fazit in einem Satz

CARE-Drive ist wie ein Spiegel, der dem Roboter vorhält: „Du sagst, du tust das wegen der Sicherheit? Beweise es, indem du dein Verhalten änderst, wenn sich die Sicherheitslage ändert!" Nur so können wir sicherstellen, dass unsere KI-Beifahrer nicht nur clever aussehen, sondern auch wirklich vernünftig handeln.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Forschung im Bereich des autonomen Fahrens setzt zunehmend auf Fundamentale Modelle, insbesondere Vision-Language-Modelle (VLMs), um Fahrzeugszenen zu interpretieren, Handlungsempfehlungen zu geben und natürliche Spracherklärungen zu generieren. Ein zentrales Problem besteht jedoch darin, dass bestehende Evaluierungsmethoden primär ergebnisbasierte Metriken (z. B. Kollisionsrate, Trajektorienfehler) betrachten.

Es fehlt jedoch an Methoden, um zu prüfen, ob die Entscheidungen der Modelle tatsächlich auf menschlich relevante Gründe (Reason-Responsiveness) reagieren oder ob die generierten Erklärungen lediglich Post-hoc-Rationalisierungen (nachträgliche Rechtfertigungen) sind, die keinen kausalen Einfluss auf die Entscheidung haben. Dies ist in sicherheitskritischen Domänen problematisch, da es zu falschem Vertrauen führen kann. Das Konzept des „Meaningful Human Control" (MHC) fordert, dass autonome Systeme angemessen auf die Gründe reagieren, die eine Entscheidung rechtfertigen (Tracking-Condition). Bisherige Frameworks können nicht operationalisieren, ob VLMs diese Bedingung erfüllen, insbesondere da End-to-End-Modelle keine zugänglichen internen Entscheidungsrepräsentationen bieten.

2. Methodik: Das CARE-Drive Framework

CARE-Drive (Context-Aware Reasons Evaluation for Driving) ist ein modellagnostisches Framework, das die Reason-Responsiveness von VLMs in autonomen Fahrszenarien bewertet. Es basiert auf einem zweistufigen Evaluierungsprozess, der Prompt-Stabilität von kontextabhängigen Reasoning-Effekten trennt:

Szenario

Als Use-Case dient das Überholen eines Radfahrers auf einer zweispurigen Straße mit Doppelstreifen (Verbot des Überholens), wo normative Konflikte zwischen Sicherheit, Legalität, Effizienz und Komfort bestehen.

Stufe 1: Prompt-Kalibrierung (Prompt Calibration)

Ziel ist die Identifizierung einer stabilen Prompt-Konfiguration, die konsistente und expertenkonforme Entscheidungen liefert, bevor Kontextvariationen getestet werden.

Variablen: Auswahl des Modells ( $M$ ), der Denkstrategie ( $T$ : No-Thought, Chain-of-Thought, Tree-of-Thought) und der Erklärungslänge ( $L$ ).
Referenz: Expertenentscheidungen (basierend auf einer Studie, in der die Mehrheit der Experten das Überholen trotz rechtlicher Bedenken bei ausreichender Sicherheit empfiehlt).
Prozess: Es wird geprüft, welche Kombination aus Modell und Denkstrategie unter festem Kontext die höchste Übereinstimmung mit der Expertenentscheidung erreicht und dabei explizit die Normen (z. B. Illegalität des Überholens) anerkennt.
Ergebnis dieser Stufe: Die Konfiguration $(M^*, T^*) = (\text{gpt-4.1}, \text{Tree-of-Thought})$ wurde als optimal ausgewählt.

Stufe 2: Kontextuelle Evaluation (Contextual Reasons Evaluation)

In dieser Stufe wird die Sensitivität des kalibrierten Modells gegenüber systematischen Variationen der beobachtbaren Fahrkontexte ( $O$ ) gemessen.

Input-Variation: Das Modell erhält explizite normative Gründe ( $R$ $R$ ) im Prompt. Der Kontext $O$ $O$ wird variiert, um menschliche Faktoren zu simulieren:
- $TTCo$: Time-to-Collision mit einem entgegenkommenden Fahrzeug (Sicherheitsabstand).
- $B$ : Vorhandensein eines Fahrzeugs hinter dem AV (sozialer Druck).
- $U$ : Dringlichkeit des Passagiers (Effizienz).
- $F$ : Wartezeit hinter dem Radfahrer (Komfort/Unmut).
Analyse: Es wird ein binäres logistisches Regressionsmodell verwendet, um den Einfluss dieser Variablen auf die Überholwahrscheinlichkeit ( $P(\text{Overtake})$ ) zu quantifizieren.
Validierung: Ausgewählte Entscheidungen wurden im CARLA-Simulator repliziert, um die physikalische Machbarkeit zu bestätigen.

3. Wichtige Beiträge

Framework: Einführung von CARE-Drive als erstes modellagnostisches Framework zur Bewertung der Reason-Responsiveness in VLMs für das autonome Fahren.
Methodik: Entwicklung eines zweistufigen Verfahrens, das Prompt-Stabilität isoliert und systematisch die kausale Wirkung menschlicher Gründe auf das Entscheidungsverhalten misst, ohne das Modell neu zu trainieren.
Empirische Analyse: Eine systematische Studie, die zeigt, wie explizite normative Gründe Überholentscheidungen unter kontrollierten Kontextvariationen beeinflussen.
Erkenntnisgewinn: Demonstration, dass explizite normative Guidance das Verhalten von VLMs in Richtung expertenkonformen Verhaltens verschieben kann, wobei die Sensitivität jedoch je nach Kontextfaktor variiert.

4. Ergebnisse

Einfluss von Gründen: Ohne explizite normative Gründe ( $R = \emptyset$ ) neigten die Modelle strikt zur Regelbefolgung (kein Überholen, 0 %). Mit expliziten Gründen ( $R \neq \emptyset$ ) und geeigneter Denkstrategie (ToT) änderte sich das Verhalten signifikant in Richtung der Expertenempfehlung.
Sensitivität gegenüber Kontextfaktoren:
- Sicherheitsabstand ($TTCo$): Hat den stärksten positiven Einfluss. Größere Lücken zu entgegenkommenden Fahrzeugen erhöhen die Überholwahrscheinlichkeit signifikant (Odds Ratio > 20).
- Sozialer Druck ( $B$ ): Die Anwesenheit eines hinteren Fahrzeugs erhöht die Überholwahrscheinlichkeit (Odds Ratio ~3,8), was auf eine Reaktion auf sozialen Druck hindeutet.
- Erklärungslänge ( $L$ ): Eine Einschränkung der Erklärungslänge („Few-Sentences") unterdrückt Überholentscheidungen drastisch (Odds Ratio ~0,015), was zeigt, dass der „Reasoning-Bandwidth" entscheidend für die Abwägung von Normen ist.
- Passagierdringlichkeit ( $U$ ): Überraschenderweise führte die Information über einen eiligen Passagier zu einer geringeren Überholwahrscheinlichkeit. Das Modell wurde konservativer, anstatt aggressiver zu werden.
- Wartezeit ( $F$ ): Zeigte keinen signifikanten statistischen Einfluss auf die Entscheidung.
Validierung: Die im Simulator getesteten Entscheidungen waren stabil und führten zu physikalisch ausführbaren Manövern.

5. Bedeutung und Implikationen

Überprüfung von „Meaningful Human Control": CARE-Drive operationalisiert die Tracking-Condition von MHC, indem es nachweist, ob autonome Systeme auf menschlich relevante Gründe reagieren. Es liefert empirische Belege dafür, dass VLMs nicht nur plausible Erklärungen generieren, sondern deren Entscheidungen tatsächlich durch eingegebene Gründe beeinflusst werden können.
Unterscheidung von Rationalisierung: Das Framework hilft, echte Reason-Responsiveness von bloßen Post-hoc-Rationalisierungen zu unterscheiden.
Praktische Anwendung: Es bietet eine Methode, um sicherheitskritische Systeme zu diagnostizieren, ohne deren interne Parameter ändern zu müssen. Dies ist ein wichtiger Schritt hin zu vertrauenswürdiger, menschenzentrierter KI im autonomen Fahren.
Limitationen: Die Studie zeigt, dass die Responsivität nicht bei allen Gründen gleich ist (z. B. fehlende Reaktion auf Dringlichkeit). Die Operationalisierung erfolgt über Proxy-Variablen, nicht über direkten Zugriff auf das interne Modellwissen.

Zusammenfassend stellt CARE-Drive einen wesentlichen Fortschritt dar, um die ethische und normative Angemessenheit von Entscheidungen fundamentaler Modelle in sicherheitskritischen Umgebungen quantitativ zu bewerten.