Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der verwirrte Radiologe

Stell dir vor, du hast einen sehr klugen, aber etwas nervösen medizinischen Assistenten (einen KI-Modell namens MedGemma). Du zeigst ihm ein Röntgenbild der Lunge und stellst eine Frage.

Frage A: „Ist eine Lungenentzündung zu sehen?"
Frage B: „Zeigt dieses Bild eine Lungenentzündung?"

Beide Fragen bedeuten genau dasselbe. Ein menschlicher Experte würde bei beiden Fragen das gleiche „Ja" oder „Nein" sagen. Aber unser KI-Assistent ist manchmal verwirrt. Bei Frage A sagt er „Ja", bei Frage B sagt er plötzlich „Nein".

Das ist wie ein Koch, der dir ein Omelett serviert, aber wenn du fragst „Ist das ein Omelett?", sagt er „Ja", und wenn du fragst „Hast du Eier gerührt?", sagt er „Nein". Das ist gefährlich, wenn es um medizinische Diagnosen geht. Man kann sich nicht auf jemanden verlassen, der je nach Wortwahl eine andere Antwort gibt.

Die Detektivarbeit: Wo sitzt der Fehler?

Die Forscher wollten herausfinden, warum die KI so verwirrt ist. Sie benutzten ein Werkzeug namens Sparse Autoencoder (SAE). Stell dir das wie eine Art „Röntgenblick ins Gehirn" der KI vor.

Sie fanden heraus, dass es in der KI einen ganz bestimmten „Schalter" (einen neuronalen Feature) gibt, der bei Schicht 17 sitzt. Dieser Schalter reagiert nicht auf das Bild, sondern auf den Tonfall der Frage.

Wenn die Frage sehr direkt und formell klingt („Ist da...?"), schaltet er sich ein.
Wenn die Frage anders formuliert ist („Zeigt das...?"), schaltet er sich aus.

Dieser Schalter ist wie ein kaputtes Ampelsystem: Er ändert die Farbe der Ampel (die Antwort), nur weil das Schild anders geschrieben ist, obwohl der Verkehr (das Röntgenbild) genau gleich bleibt.

Die Lösung: Ein smarter Trainings-Trick

Die Forscher wollten diesen Schalter reparieren. Ihr erster Versuch war, der KI zu sagen: „Antworte bei beiden Fragen immer gleich!"
Das funktionierte, aber auf eine dumme Art: Die KI lernte, bei jeder Frage „Ja" zu sagen. Das ist wie ein Uhrmacher, der die Zeiger festklebt, damit sie immer auf 12 Uhr zeigen. Die Uhr ist dann zwar immer gleich, aber sie zeigt nie die richtige Zeit an. Das nennt man „Mode Collapse" (ein Zusammenbruch in eine einzige, langweilige Antwort).

Der geniale Trick:
Die Forscher entwickelten eine neue Trainingsmethode mit einem doppelten Ziel:

Konsistenz: „Sag bei beiden Fragen dasselbe!"
Genauigkeit: „Und sag dabei auch die richtige Antwort!"

Sie gaben der KI eine Art „Lehrer", der ihr sagt: „Du musst konsistent sein, aber du darfst die Diagnose nicht falsch machen."

Das Ergebnis: Besser und stabiler

Durch diese Methode (sie nannten es LoRA, was wie ein kleiner, effizienter „Aufkleber" auf dem Gehirn der KI ist) passierte Folgendes:

Weniger Verwirrung: Die Rate, bei der die KI bei Umschreibungen die Antwort änderte, sank drastisch von 14,6 % auf nur noch 4,4 %.
Stabileres Vertrauen: Selbst wenn die Antwort gleich blieb, war die „Zuversicht" der KI (wie sicher sie sich war) viel stabiler.
Kein Qualitätsverlust: Die KI wurde nicht dümmer. Sie blieb genauso gut darin, Krankheiten zu erkennen wie vorher.

Eine überraschende Entdeckung

Die Forscher dachten zuerst, sie müssten den Schalter bei Schicht 17 reparieren, weil sie dort den Fehler sahen. Aber als sie experimentierten, stellten sie fest: Es ist besser, den Fehler viel früher zu stoppen.

Stell dir vor, ein Wasserrohr hat ein Leck. Du könntest versuchen, das Wasser am Ende des Rohrs aufzufangen (Schicht 17), aber es ist viel effektiver, das Ventil ganz am Anfang (Schicht 0–10) zu drehen, bevor das Wasser überhaupt in die falsche Richtung fließt. Die KI lernte also, die Verwirrung gar nicht erst entstehen zu lassen.

Fazit

Diese Forschung zeigt, wie man KI-Modelle für die Medizin sicherer macht. Anstatt sie blind zu trainieren, haben die Forscher erst verstanden, wie das Gehirn der KI funktioniert (mechanistische Interpretierbarkeit), und dann einen gezielten Eingriff vorgenommen.

Das Ergebnis ist ein KI-Assistent, der nicht nur klug ist, sondern auch zuverlässig – egal, wie du ihn fragst. Das ist ein wichtiger Schritt, damit Ärzte in Zukunft wirklich auf solche Systeme vertrauen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Medizinische Vision-Language-Modelle (VLMs) wie MedGemma-4B zeigen eine kritische Instabilität: Sie können auf semantisch äquivalente, aber sprachlich umformulierte (paraphrasierte) klinische Fragen unterschiedliche Ja/Nein-Antworten geben. Dies untergräbt das Vertrauen in die klinische Anwendung und stellt ein Sicherheitsrisiko dar.

Beispiel: Die Fragen „Gibt es Hinweise auf einen Pneumothorax?" und „Zeigt dies einen Pneumothorax?" sollten identische Antworten liefern, führen jedoch oft zu inkonsistenten Ergebnissen.
Metriken: Die Studie quantifiziert dieses Problem durch die Flip-Rate (Häufigkeit, bei der sich die binäre Antwort ändert) und die Margin-Differenz (die absolute Änderung der Logits zwischen Ja und Nein, selbst wenn die Antwort gleich bleibt).
Ausgangslage: Auf dem MIMIC-CXR-Datensatz (n=158) lag die Flip-Rate bei 14,6 % und die durchschnittliche Margin-Differenz bei 1,63 Logits.

2. Methodik

Die Arbeit kombiniert mechanistische Interpretierbarkeit mit parametereffizientem Fine-Tuning.

A. Mechanistische Analyse (Ursachenforschung)

Um zu verstehen, warum diese Inkonsistenzen auftreten, wurden Sparse Autoencoder (SAEs) aus dem Gemma Scope 2-Modell verwendet.

Transfer-Validierung: Es wurde bestätigt, dass die SAEs von der Basis-Version (Gemma) effektiv auf das medizinisch feinabgestimmte MedGemma-4B übertragen werden können (Bestimmtheitsmaß $R^2 \approx 0,997$ ).
FlipBank-Erstellung: Eine kuratierte Menge von 158 Fällen, in denen das Modell bei Paraphrasen inkonsistent antwortet, wurde erstellt, um die Analyse zu fokussieren.
Feature-Identifikation: Durch Delta-Analyse der Aktivierungen wurde Feature 3818 in Schicht 17 als kritischer Mechanismus identifiziert.
- Dieses Feature reagiert empfindlich auf das Register der Frage (z. B. Präsenz vs. Ausschluss-Framing), nicht unbedingt auf formale vs. informelle Sprache.
- Kausale Validierung: Durch „Activation Patching" (Eingreifen in die Restaktivitäten) konnte gezeigt werden, dass das Ändern von Feature 3818 die Margin-Differenz kausal beeinflusst und in einem Beispiel die ursprüngliche Vorhersage teilweise wiederherstellte.

B. Gezieltes Fine-Tuning mit LoRA

Basierend auf den Erkenntnissen wurde ein Low-Rank Adaptation (LoRA)-Ansatz entwickelt.

Architektur: LoRA-Adapter wurden in den Schichten 15 bis 19 des Sprachmodells eingefügt (Vision-Encoder blieb eingefroren).
Das Problem reiner Konsistenz-Training: Ein Training nur mit einem Konsistenz-Verlust (Kl-Divergenz zwischen Paraphrasen) führte zu einem Mode Collapse. Das Modell lernte, für alle Fragen die gleiche Antwort (z. B. immer „Ja") zu geben, um die Divergenz trivial zu minimieren, was die diagnostische Genauigkeit zerstörte.
Lösung: Kombinierte Verlustfunktion: Um dies zu verhindern, wurde ein kombinierter Verlust eingeführt:
$L = L_{consistency} + \lambda \cdot L_{accuracy}$
- $L_{consistency}$ : Symmetrische KL-Divergenz, um gleiche Verteilungen für Paraphrasen zu erzwingen.
- $L_{accuracy}$ : Cross-Entropy-Verlust, der das Modell zwingt, die korrekte Ja/Nein-Antwort basierend auf Ground-Truth-Labels zu lernen.
- $\lambda = 1,0$ : Gleiche Gewichtung beider Ziele.

3. Wichtige Beiträge

Systematische Charakterisierung: Unterscheidung zwischen Flip-Rate und Margin-Instabilität in MedGemma-4B.
SAE-Transfer: Validierung, dass SAEs von Basis-Modellen auf medizinische Feinabstimmungen übertragbar sind.
Mechanistischer Fallstudie: Identifikation von Feature 3818 als register-sensitives Feature, das kausal die Entscheidungsfindung beeinflusst.
Neue Trainingsstrategie: Entwicklung einer kombinierten Verlustfunktion für LoRA, die Mode Collapse verhindert und gleichzeitig die Konsistenz verbessert.

4. Ergebnisse

Die Ergebnisse wurden auf dem PSF-Med-Testset (MIMIC-CXR) und einem externen Datensatz (PadChest) evaluiert.

A. Hauptergebnisse (MIMIC-CXR, n=158)

Flip-Rate: Reduktion von 14,6 % auf 4,4 % (statistisch signifikant, $p=0,002$ ). Dies entspricht einer relativen Verbesserung von 69,6 %.
Margin-Differenz: Reduktion von 1,63 auf 0,33 Logits (79,5 % Verbesserung).
Genauigkeit: Bleibt stabil bei 82,3 % (vs. 84,2 % Baseline; nicht signifikant, $p=0,66$ ). Das Modell verliert also keine diagnostische Fähigkeit.

B. Cross-Dataset Generalisierung (PadChest, n=250)

Trotz Training nur auf MIMIC-CXR verbesserte sich die Leistung auf dem spanischen PadChest-Datensatz.
Flip-Rate sank von 13,6 % auf 7,8 %.
Die Genauigkeit stieg sogar von 66,4 % auf 69,4 %.

C. Schicht-Ablationsstudie

Interessanterweise erwiesen sich frühe Schichten (0–10) als effektiver für die Reduktion der Margin-Differenz (86 % Verbesserung) als die mechanistisch identifizierten mittleren Schichten (15–19, 80 % Verbesserung).

Interpretation: Eingriffe in frühen Schichten verhindern die Entstehung der Sensitivität, bevor sie sich manifestiert, anstatt sie später zu korrigieren.

5. Bedeutung und Fazit

Die Studie demonstriert, dass mechanistische Interpretierbarkeit (SAEs) genutzt werden kann, um spezifische Fehlermechanismen in medizinischen VLMs zu identifizieren. Der vorgeschlagene Ansatz mit kombiniertem Konsistenz- und Genauigkeitsverlust löst das Problem der Inkonsistenz bei Paraphrasen, ohne die klinische Zuverlässigkeit zu beeinträchtigen.

Dies ist ein wichtiger Schritt für den sicheren Einsatz von KI in der Radiologie, da es die Robustheit der Modelle gegenüber unterschiedlichen Formulierungen durch verschiedene Ärzte erhöht. Die Arbeit zeigt zudem, dass die optimale Interventionsstelle im neuronalen Netz nicht unbedingt dort liegt, wo der Fehlermechanismus sichtbar wird, sondern oft in früheren Verarbeitungsstufen.