Explainable embeddings with Distance Explainer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Das Geheimnis der unsichtbaren Landkarte: Wie „Distance Explainer" funktioniert

Stell dir vor, du hast einen riesigen, unsichtbaren Raum voller Punkte. Jeder Punkt ist ein Bild, ein Satz oder ein Objekt. In diesem Raum sind sich Dinge, die sich ähnlich sind, sehr nah beieinander. Dinge, die sich ganz unterschiedlich sind, liegen weit voneinander entfernt.

Das ist ein „Embedding" (eine Einbettung). Künstliche Intelligenz (KI) nutzt solche Räume, um Dinge zu verstehen. Aber hier liegt das Problem: Für uns Menschen ist dieser Raum wie ein schwarzer Kasten. Wir sehen die Punkte, aber wir wissen nicht, warum zwei Punkte nah beieinander liegen. Ist es wegen der Farbe? Der Form? Der Bedeutung?

Die Autoren dieses Papers, Christiaan Meijer und E. G. Patrick Bos, haben eine neue Methode namens „Distance Explainer" erfunden, um genau dieses „Warum" zu erklären.

🎭 Die Idee: Ein Theaterstück mit Masken

Stell dir vor, du möchtest herausfinden, warum zwei Schauspieler auf einer Bühne so ähnlich wirken.

Der Vergleich: Du nimmst einen Schauspieler (das „Referenz-Bild", z. B. eine Biene) und einen anderen (das „zu erklärende Bild", z. B. eine Fliege).
Der Trick: Du nimmst das Bild der Fliege und legst zufällig kleine schwarze Tücher (Masken) über Teile davon. Du verdeckst also die Flügel, dann die Streifen, dann die Augen.
Die Beobachtung: Jedes Mal, wenn du etwas verdeckst, schaust du in den unsichtbaren Raum: „Ist die Fliege jetzt noch so nah an der Biene? Oder ist sie plötzlich viel weiter weggerutscht?"

Wenn du die Flügel verdeckst und die Fliege plötzlich nicht mehr wie eine Biene aussieht (sie rutscht weit weg), dann waren die Flügel der entscheidende Grund für die Ähnlichkeit. Wenn du die Beine verdeckst und nichts passiert, waren die Beine egal.

🔍 Was macht die Methode besonders?

Frühere Methoden waren oft wie ein einzelner Suchscheinwerfer, der nur auf ein Bild schaute. Die neue Methode ist wie ein Zwei-Personen-Interview:

Sie vergleicht immer zwei Dinge miteinander.
Sie nutzt einen cleveren Filter: Sie schaut sich nicht alle verdeckten Bilder an, sondern nur die, bei denen sich die Entfernung am stärksten verändert hat.
Der „Spiegel-Effekt": Die Methode schaut sich sowohl die Fälle an, die die Dinge näher zusammenbringen, als auch die, die sie weiter voneinander entfernen. Indem sie diese beiden Seiten gegeneinander rechnet (wie ein Spiegelbild), rauscht das „Rauschen" heraus und das echte Signal bleibt übrig.

🐝 Was haben sie herausgefunden? (Die Experimente)

Die Forscher haben ihre Methode an zwei großen KI-Modellen getestet:

Bei Bildern: Sie verglichen Bilder von Bienen und Fliegen. Das Ergebnis? Die KI erkennt, dass die Flügel der Grund sind, warum sich Biene und Fliege ähnlich sind (sie rücken näher). Aber die Streifen auf dem Körper sind der Grund, warum sie sich unterscheiden (sie rücken weiter weg).
Bei Bildern und Text: Sie zeigten ein Bild einer Biene und gaben den Text „Eine Biene auf einer Blume" dazu. Die Methode konnte genau zeigen, welche Teile des Bildes für die KI wichtig waren, um diesen Satz zu bestätigen.

⚙️ Die Werkzeuge im Detail (Einfach erklärt)

Um gute Ergebnisse zu liefern, müssen ein paar Knöpfe richtig eingestellt werden:

Anzahl der Masken: Je mehr Tücher man über das Bild legt (z. B. 1000 Mal), desto genauer wird das Bild, aber es dauert länger.
Wie viel verdecken? Wenn man zu viel verdeckt, sieht man nichts mehr. Wenn man zu wenig verdeckt, passiert nichts. Die Autoren fanden einen „Sweet Spot" (ca. die Hälfte des Bildes offen lassen).
Auflösung: Man kann das Bild in große Kacheln oder winzige Pixel unterteilen. Für feine Details (wie die Flügel einer Biene) braucht man kleine Kacheln.

🚀 Warum ist das wichtig?

Bisher war es schwer zu verstehen, wie KI entscheidet, ob zwei Dinge „ähnlich" sind. Das ist wie bei einem Richter, der ein Urteil fällt, ohne zu sagen, warum.
Mit dem Distance Explainer wird die KI transparent. Wir können sehen:

„Aha, die KI hält diese beiden Autos für ähnlich, weil sie beide rote Rücklichter haben."
„Oh, sie hält sie für unterschiedlich, weil eines ein Dach hat und das andere nicht."

Das macht KI vertrauenswürdiger, besonders in Bereichen wie Medizin oder Wissenschaft, wo man genau wissen muss, worauf sich die Maschine stützt.

📝 Zusammenfassung in einem Satz

Die Autoren haben eine neue Methode erfunden, die wie ein detektivischer Vergleich funktioniert: Durch das systematische „Verdecken" von Teilen eines Bildes zeigen sie uns genau, welche Merkmale dafür sorgen, dass zwei Dinge in der KI-Welt entweder wie Zwillinge wirken oder wie Fremde.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert eine kritische Lücke im Bereich des Explainable AI (XAI). Während es viele Methoden zur Erklärbarkeit von Modellen für Bilder, Text oder tabellarische Daten gibt, fehlt es an Ansätzen für eingebettete Vektorräume (embedded spaces).

Herausforderung: In eingebetteten Räumen (z. B. durch FaceNet, Word2Vec, VAE oder CLIP erzeugt) repräsentieren die Dimensionen oft komplexe, mehrstufige Abstraktionen. Herkömmliche XAI-Methoden wie RISE, LIME oder GradCAM sind meist auf die Erklärung einer einzelnen Eingabe (z. B. Klassifikation eines Bildes) ausgelegt.
Spezifisches Ziel: Es fehlt eine allgemeine Methode, um die Distanz zwischen zwei Datenpunkten in einem eingebetteten Raum zu erklären. Das Ziel ist zu verstehen, welche Merkmale (Features) dazu führen, dass zwei Einbettungen (Embeddings) ähnlich (nahe beieinander) oder unähnlich (weit voneinander entfernt) sind.

2. Methodik: Distance Explainer

Die Autoren stellen Distance Explainer vor, eine post-hoc-Methode, die auf dem RISE-Algorithmus (Randomized Input Sampling for Explanation) basiert, jedoch für den Vergleich zweier Datenpunkte adaptiert wurde.

Kernprinzip:
Anstatt die Aktivierung einer Klasse zu maximieren, wird die Distanz zwischen einem zu erklärenden Datenpunkt ( $e$ ) und einem Referenzpunkt ( $r$ ) analysiert.

Algorithmische Schritte:

Eingabe: Ein Referenzpunkt $r$ (kann in kodierter Form vorliegen) und ein zu erklärender Punkt $e$ .
Maskierung: Es werden $N_{masks}$ zufällige binäre Masken auf das zu erklärende Element $e$ angewendet (maskierte Pixel werden durch einen Basiswert ersetzt).
Inferenz: Sowohl der Referenzpunkt als auch die maskierten Versionen von $e$ werden durch das Modell geschickt, um die entsprechenden Einbettungen ( $x_r$ und $x_{Mi}$ ) zu erhalten.
Distanzberechnung: Für jede Maske wird die Distanz (hier: Kosinus-Distanz $d_{cos}$ ) zwischen der maskierten Einbettung und der Referenz berechnet.
Filterung und Aggregation (Der entscheidende Unterschied zu RISE):
- Im Gegensatz zu RISE, das Masken basierend auf Klassenscores gewichtet summiert, verwenden die Autoren eine distanzgesteuerte Maskenfilterung.
- Die Masken werden nach ihrer Wirkung auf die Distanz sortiert.
- Es werden nur die Masken ausgewählt, die die Distanz signifikant verändern (entweder stark verkleinernd oder stark vergrößernd).
- Mirror-Modus: Die Autoren führen eine zweiseitige Auswahl durch:
  - Top $x\%$ der Masken (die die Distanz minimieren).
  - Bottom $x\%$ der Masken (die die Distanz maximieren).
  - Diese werden subtrahiert (Top minus Bottom), um das Signal-Rausch-Verhältnis zu verbessern und sowohl fördernde als auch hemmende Merkmale zu identifizieren.
Ausgabe: Eine Attributionskarte (Saliency Map), die zeigt, welche Bildbereiche zur Ähnlichkeit oder Unähnlichkeit beitragen.

Wichtige Anpassungen:

Distanzmetrik: Kosinus-Distanz wird bevorzugt, da sie Winkelunterschiede betont und weniger von der Vektorgröße abhängt (wichtig bei Klassifikationsvektoren, die auf 1 summieren).
Modality-Agnostic: Die Methode ist nicht auf Bilder beschränkt, solange eine spezifische Maskierungsfunktion für den Datentyp (z. B. Text, Zeitreihen) definiert ist.

3. Experimentelles Setup

Die Methode wurde an zwei Hauptmodellen und Datensätzen evaluiert:

ImageNet-Modelle (ResNet50, VGG16): Vergleich von Bild-Bild-Paaren (gleiche Klasse, verwandte Klassen, unzusammenhängende Klassen).
CLIP-Modell (ViT-B/32): Cross-Modal-Experimente (Bild vs. Bildunterschrift/Caption). Hier wurde die Distanz zwischen einem Bild und verschiedenen Textbeschreibungen analysiert.

Evaluierte Metriken (Quantitative):

Faithfulness (Treue): Incremental Deletion (Schrittweises Entfernen von Pixeln).
Sensitivity/Robustness: Average Sensitivity (Reaktion auf kleine Eingabeänderungen).
Randomization: Model Parameter Randomization Test (MPRT) zur Überprüfung, ob die Erklärung vom gelernten Modell abhängt.

4. Ergebnisse

Quantitative Ergebnisse:

Faithfulness: Die Methode zeigt hohe Treue. Das Entfernen von Pixeln, die als wichtig identifiziert wurden, führt zu signifikanten Änderungen in der Distanz zum Referenzpunkt.
Robustheit: Die Sensitivitätswerte waren niedrig (0,04–0,06), was auf eine hohe Stabilität der Erklärungen hinweist.
Randomization: Nach dem Randomisieren der Modellgewichte (insbesondere der ersten Schichten) brach die Korrelation der Attributionskarten fast vollständig zusammen (niedrige Spearman-Korrelation). Dies bestätigt, dass die Erklärungen tatsächlich vom gelernten Modell abhängen und nicht nur auf Vorwissen basieren.

Qualitative Ergebnisse:

Bild-Bild: Die Karten identifizierten semantisch korrekte Merkmale.
- Bienen vs. Fliegen: Flügel verringerten die Distanz (Ähnlichkeit), Streifen erhöhten sie (Unterschied).
- Hund/Auto vs. Auto/Hund: Das Modell fokussierte sich korrekt auf das Auto, wenn der Referenzpunkt ein Auto war, und auf den Hund, wenn der Referenzpunkt ein Hund war.
Bild-Text (CLIP): Die Methode konnte visuell zeigen, welche Bildbereiche zu einer bestimmten Textbeschreibung passen (z. B. „eine Biene auf einer Blume" vs. „eine Biene"). Die Karten waren etwas weniger scharf als bei reinen Bildvergleichen, aber dennoch aussagekräftig.

Parameter-Einfluss:

Anzahl der Masken: Mehr Masken (z. B. 1000) erhöhen die Stabilität und reduzieren das Rauschen.
Maskenabdeckung ( $p_{keep}$ ): Ein Wert von 0,5 (50% der Pixel behalten) erwies sich als robust. Extreme Werte führten zu verrauschten Karten.
Auflösung: Eine Auflösung von 8x8 Superpixeln bot einen guten Kompromiss zwischen Detailgenauigkeit und Rauschen.

5. Hauptbeiträge

Neue Methodik: Einführung von Distance Explainer, der erste allgemeine Ansatz zur lokalen Erklärung von Distanzen in eingebetteten Räumen.
Adaptierung von RISE: Erfolgreiche Transformation eines Klassifikations-Explainability-Tools in ein Distanz-Explainer-Tool durch die Einführung der distanzgesteuerten Filterung und des Mirror-Modus.
Cross-Modalität: Demonstration der Anwendbarkeit auf multimodale Modelle (CLIP), was die Erklärung von Bild-Text-Beziehungen ermöglicht.
Rigorose Evaluation: Umfassende quantitative und qualitative Bewertung unter Verwendung etablierter XAI-Metriken (Faithfulness, Robustheit, Randomization).

6. Bedeutung und Ausblick

Das Paper schließt eine wichtige Lücke in der XAI-Forschung, da eingebettete Räume in vielen modernen Anwendungen (von Gesichtserkennung bis hin zu multimodalen LLMs) allgegenwärtig sind, aber schwer zu interpretieren.

Transparenz: Die Methode erhöht das Vertrauen in Deep-Learning-Modelle, indem sie zeigt, warum zwei Datenpunkte im Vektorraum als ähnlich oder unähnlich wahrgenommen werden.
Effizienz: Sie ermöglicht es Forschern, die Entscheidungsfindung von Modellen in eingebetteten Räumen zu überprüfen, ohne das gesamte Modell neu trainieren zu müssen.
Zukunft: Die Autoren sehen Potenzial in der Anwendung auf Text- und Zeitreihendaten (unter Nutzung von DIANNA-Maskierungsfunktionen), der Optimierung der Distanzmetriken für spezifische Räume und der Automatisierung der Parameterauswahl.

Zusammenfassend bietet Distance Explainer einen robusten, modellunabhängigen Weg, um die „Black Box" eingebetteter Vektorräume zu öffnen und die zugrunde liegenden semantischen Ähnlichkeiten und Unterschiede zu visualisieren.