What is Missing? Explaining Neurons Activated by Absent Concepts

Each language version is independently generated for its own context, not a direct translation.

Titel: Was fehlt? Warum das „Nicht-Sehen" für KI genauso wichtig ist wie das „Sehen"

Stell dir vor, du bist ein Detektiv, der einen Fall löst. Normalerweise suchst du nach Hinweisen: „Aha, hier ist ein Fingerabdruck! Hier ist ein verkratztes Fenster!" Das ist, wie die meisten aktuellen Künstlichen Intelligenzen (KI) arbeiten. Sie schauen auf ein Bild und sagen: „Ich sehe eine Katze, weil ich Schnurrhaare und Ohren erkenne."

Aber diese neue Forschung von Robin Hesse und seinem Team sagt: Warte mal! Du hast etwas Wichtiges übersehen.

Manchmal ist die entscheidende Antwort nicht das, was da ist, sondern das, was nicht da ist.

Die große Entdeckung: Das „Leere" ist ein Hinweis

Die Forscher haben herausgefunden, dass neuronale Netze (die „Gehirne" der KI) nicht nur lernen, Dinge zu erkennen, sondern auch lernen, das Fehlen von Dingen zu nutzen.

Ein einfaches Beispiel:
Stell dir vor, du musst einen Irish Setter (eine Hunderasse) von einem Sussex Spaniel unterscheiden.

Der alte Weg (KI): Die KI schaut auf das Bild und sagt: „Ich sehe lange Ohren und ein braunes Fell. Das ist ein Irish Setter!"
Der neue Weg (Forschungsergebnis): Die KI denkt auch: „Ich sehe lange Ohren, ABER ich sehe kein typisches Sussex-Spaniel-Gesicht. Da dieses fehlt, bin ich mir sicherer, dass es ein Irish Setter ist."

Das Fehlen eines bestimmten Merkmals (des Spaniel-Gesichts) aktiviert im Gehirn der KI einen bestimmten Schalter. Das ist wie ein Alarm, der nicht losgeht, wenn etwas da ist, sondern wenn etwas fehlt.

Warum haben wir das übersehen?

Bisher waren die Werkzeuge, mit denen wir KIs erklären (man nennt sie XAI), wie eine Taschenlampe, die nur auf das Licht scheint.

Die Taschenlampe (Alte Methode): Sie leuchtet auf die Pixel, die hell sind (die Ohren, die Nase). Sie zeigt uns: „Hier ist der Grund für die Entscheidung!"
Das Problem: Wenn die Entscheidung aber darauf beruht, dass etwas dunkel ist (weil es fehlt), leuchtet die Taschenlampe ins Leere. Sie sagt: „Hier ist nichts zu sehen." Aber für die KI war dieses „Nichts" der wichtigste Hinweis!

Die Forscher nennen das „codierte Abwesenheit". Es ist eine geheime Sprache, die die KI spricht, aber die wir bisher nicht gehört haben.

Die Lösung: Eine neue Art zu leuchten

Um dieses Geheimnis zu lüften, haben die Forscher zwei einfache Tricks entwickelt:

Der „Gegenteil-Test" (Non-Target Attribution):
Statt zu fragen: „Was macht dieses Bild zu einem Irish Setter?", fragen wir: „Was würde dieses Bild nicht zu einem Irish Setter machen?"
- Analogie: Stell dir vor, du suchst nach einem Dieb. Die alte Methode zeigt dir, wo der Dieb steht. Die neue Methode zeigt dir, wo der Dieb nicht steht, und sagt: „Aha! Weil er nicht in der Küche ist, muss er im Garten sein."
- In der Praxis: Die KI wird gezwungen, sich ein Bild anzusehen, auf dem der „falsche" Hund (der Spaniel) zu sehen ist. Die KI reagiert darauf mit einem negativen Signal. Das zeigt uns: „Oh, wenn dieser Hund da ist, wird mein Irish Setter-Schalter heruntergefahren. Also ist das Fehlen dieses Hundes mein Beweis!"
Das „Minimierungs-Verfahren" (Feature Visualization):
Normalerweise versuchen wir, Bilder zu erzeugen, die eine KI maximal aufregen (z. B. ein Bild, das so sehr nach einer Katze aussieht, dass die KI fast explodiert).
Die neuen Forscher fragen stattdessen: „Was erzeugt das geringste Interesse?"
- Analogie: Stell dir vor, du willst wissen, was ein Kind hasst. Du gibst ihm nicht das Lieblingsspielzeug, sondern du fragst: „Was macht das Kind am unglücklichsten?" Wenn du ihm eine Spinne zeigst und es schreit, hast du herausgefunden, dass das Fehlen von Spinnen für sein Wohlbefinden wichtig ist.
- Die KI sucht nach Mustern, die sie am meisten „stören". Diese Muster sind genau das, was sie nicht sehen will, um eine bestimmte Klasse zu erkennen.

Warum ist das so wichtig?

Bessere Unterscheidung: Bei feinen Unterschieden (wie bei Hunderassen oder medizinischen Bildern) ist es oft wichtiger zu wissen, was nicht da ist, als was da ist.
Fairere KI (Entfernung von Vorurteilen):
Das ist der spannendste Teil. KI lernt oft schlaue, aber faule Abkürzungen.
- Beispiel: In einer Datenbank für Hautkrebs waren alle gutartigen (harmlosen) Muttermale zufällig mit bunten Markierungen versehen. Die KI lernte: „Bunte Markierung = harmlos".
- Wenn man das Markierungsweg macht, wird die KI verwirrt.
- Die Forscher zeigen: Die KI lernte nicht nur, dass die Markierung da ist (für harmlos), sondern auch, dass das Fehlen der Markierung = Krebs bedeutet.
- Mit ihren neuen Methoden können sie diese „faulen Abkürzungen" finden und die KI zwingen, wirklich auf die Haut zu schauen, statt auf die Markierung.

Fazit

Diese Arbeit sagt uns: Um KI wirklich zu verstehen, müssen wir aufhören, nur auf das zu schauen, was leuchtet. Wir müssen lernen, die Schatten zu lesen.

Die KI nutzt das „Nicht-Da-Sein" als mächtiges Werkzeug. Wenn wir verstehen, wie sie das macht, können wir sie nicht nur besser erklären, sondern auch fairer und robuster machen. Es ist, als würden wir einem Detektiv endlich beibringen, nicht nur nach Spuren zu suchen, sondern auch zu bemerken, dass eine Tür offen steht, obwohl sie zugeschlossen sein sollte.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „What is Missing? Explaining Neurons Activated by Absent Concepts" auf Deutsch:

1. Problemstellung

Das Feld der erklärlichen künstlichen Intelligenz (XAI) konzentriert sich traditionell darauf, zu verstehen, welche Präsenz von Konzepten (z. B. Pixel, Merkmale) in einem Eingabebild zu einer hohen Aktivierung eines Neurons oder einer bestimmten Klassifizierung führt. Methoden wie Attribution (z. B. Gradienten-basierte Saliency Maps) und Feature-Visualisierung (z. B. Maximierung der Aktivierung) identifizieren Eingabeteile, die das Modell „sehen" muss, um eine Vorhersage zu treffen.

Das Paper identifiziert jedoch eine weitgehend übersehene kausale Beziehung: Kodiertes Fehlen (Encoded Absences). Dabei handelt es sich um Konzepte, deren Abwesenheit im Eingabebild die Aktivierung eines Neurons erhöht oder eine Vorhersage begünstigt.

Beispiel: Um einen „Irish Setter" von einem „Sussex Spaniel" zu unterscheiden, nutzt das Modell nicht nur die Präsenz setter-spezifischer Merkmale, sondern auch die Bestätigung des Fehlens spaniel-spezifischer Merkmale.
Herausforderung: Herkömmliche XAI-Methoden scheitern daran, diese negativen kausalen Zusammenhänge aufzudecken, da sie standardmäßig nur auf das Vorhandensein von Informationen im Eingabebild abzielen. Ein Neuron, das durch das Fehlen eines Konzepts aktiviert wird, zeigt in Standard-Attributionskarten oft keine negativen Werte für das fehlende Konzept an, da dieses Konzept im Bild gar nicht vorhanden ist.

2. Methodik

Die Autoren schlagen vor, die etablierten XAI-Methoden durch zwei einfache, aber effektive Erweiterungen zu modifizieren, um kodiertes Fehlen zu enthüllen:

A. Nicht-Ziel-Attribution (Non-Target Attribution)

Konzept: Standard-Attribution berechnet die Wichtigkeit von Eingabepixeln für die vorhergesagte Klasse $t$ (Target). Wenn das Modell jedoch auf das Fehlen eines Konzepts $\hat{x}$ für Klasse $t$ reagiert, ist $\hat{x}$ in Bildern von Klasse $t$ typischerweise nicht vorhanden. Daher kann die Standard-Attribution keine inhibierenden Effekte zeigen.
Lösung: Die Autoren berechnen die Attribution für die Zielklasse $t$ , verwenden aber als Eingabebilder $x$ aus anderen Klassen (oder einer diversen Stichprobe), in denen das Konzept $\hat{x}$ tatsächlich vorhanden ist.
Mechanismus: Wenn das Modell das Konzept $\hat{x}$ als inhibitorisch für Klasse $t$ nutzt, führt dessen Anwesenheit in der Eingabe zu einer negativen Attribution (Hemmung) für die Ausgabe von $t$ . Dies macht das „fehlende" Konzept sichtbar, indem man es künstlich in den Kontext bringt und die Reaktion des Modells misst.

B. Feature-Visualisierung durch Minimierung (Minimization)

Konzept: Herkömmliche Feature-Visualisierung sucht nach Eingabemustern, die die Aktivierung eines Neurons maximieren. Für Neuronen, die das Fehlen eines Konzepts kodieren, würde dies Bilder erzeugen, die das Konzept explizit ausschließen, aber nicht zeigen, was fehlt.
Lösung: Statt die Aktivierung zu maximieren, wird die Eingabe $x$ so optimiert, dass sie die Aktivierung des Neurons $z_j$ minimiert ( $\hat{x} = \arg\min_x z_j(x)$ ).
Mechanismus: Eingabemuster, die eine starke negative Aktivierung (vor der Aktivierungsfunktion) hervorrufen, repräsentieren die Muster, die das Neuron hemmen. Die Visualisierung dieser Muster zeigt direkt die Konzepte, deren Abwesenheit das Neuron aktiviert.

C. Theoretische Fundierung

Die Autoren definieren „Encoded Absence" formal als kausale Beziehung: Ein Neuron $z_j$ kodiert die Abwesenheit eines Konzepts $\hat{x}$ , wenn die Einführung von $\hat{x}$ in die Eingabe (via $do$ -Operation) die Aktivierung von $z_j$ verringert. Sie beweisen mechanistisch, dass DNNs dies durch negative Gewichte (Inhibition) in Kombination mit einem positiven Potential (Bias oder andere aktivierende Konzepte) implementieren können.

3. Wichtige Beiträge

Formale Definition: Etablierung von „Encoded Absence" als eigenständige, kausale Beziehung in DNNs, die bisher in der XAI-Literatur systematisch vernachlässigt wurde.
Methodische Erweiterung: Vorstellung von „Non-Target Attribution" und „Feature Visualization via Minimization" als notwendige Ergänzungen zu bestehenden Methoden, um ein vollständiges Bild des Modellverhaltens zu erhalten.
Empirische Validierung: Nachweis, dass DNNs (von handgefertigten CNNs bis zu ImageNet-Modellen) aktiv kodiertes Fehlen nutzen, insbesondere für feinkörnige Klassifizierung (Fine-Grained Classification).
Debiasing-Anwendung: Demonstration, dass Modelle oft auf spuriose Korrelationen basieren, die nicht nur auf der Präsenz, sondern auch auf der Abwesenheit von Merkmalen beruhen. Ein reines „Presence-Debiasing" reicht nicht aus; ein kombiniertes „Presence+Absence-Debiasing" ist notwendig, um Modelle robust zu machen.

4. Ergebnisse

Die Experimente umfassen synthetische Datensätze, handgefertigte Detektoren (Hassenstein-Reichardt) und reale ImageNet-Modelle (VGG19, ResNet-50):

Synthetische & Handgefertigte Modelle: In einem Toy-Modell, das auf das Fehlen eines grünen Pixels trainiert wurde, zeigten Standard-Methoden nur die Präsenz anderer Farben. Die vorgeschlagenen Methoden visualisierten korrekt das grüne Pixel als inhibitorischen Faktor. Ähnliche Ergebnisse wurden beim Hassenstein-Reichardt-Bewegungsdetektor erzielt.
ImageNet-Modelle: Eine quantitative Analyse zeigte, dass fast alle Kanäle in den letzten Faltungsschichten von VGG19 und ResNet-50 durch das Einfügen von „am wenigsten aktivierenden Patches" (Least Activating Patches) signifikant gehemmt werden. Dies beweist, dass kodiertes Fehlen ein systematisches Merkmal von Bildklassifizierungsmodellen ist.
Feinkörnige Klassifizierung: Qualitative Analysen zeigten, dass Kanäle, die für eine Klasse wichtig sind, oft gleichzeitig die Abwesenheit von Merkmalen verwandter Klassen kodieren (z. B. „Border Collie" vs. „Leonberger"). Dies dient als starkes diskriminierendes Signal.
Debiasing (ISIC-Datensatz): Bei der Klassifizierung von Hautläsionen (gutartig vs. bösartig) lernten Modelle oft, dass das Fehlen eines farbigen Flecks ein Indiz für Bösartigkeit ist.
- Ohne Debiasing: Das Modell ignoriert das Fehlen des Flecks bei Vorhandensein.
- Nur Presence-Debiasing: Das Modell lernt, den Fleck zu ignorieren, nutzt aber weiterhin dessen Abwesenheit für Vorhersagen (Bias bleibt bestehen).
- Presence+Absence-Debiasing: Durch Einbeziehung der Nicht-Ziel-Attribution in den Trainingsverlust wird verhindert, dass das Modell auf Präsenz oder Abwesenheit des Artefakts reagiert. Dies führte zu einer signifikant höheren Genauigkeit auf verzerrten und inversen Validierungssets.

5. Bedeutung und Fazit

Das Paper stellt einen Paradigmenwechsel in der XAI dar: Eine vollständige Erklärung eines neuronalen Netzwerks muss nicht nur das Vorhandensein, sondern auch das Fehlen von Konzepten berücksichtigen.

Für das Verständnis von Modellen: Es zeigt, dass DNNs komplexe logische Operationen (wie NOT) nutzen, um feine Unterscheidungen zu treffen, die über reine Merkmalsdetektion hinausgehen.
Für die Robustheit: Das Ignorieren kodierten Fehlens führt zu unvollständigen Erklärungen und kann dazu führen, dass Modelle anfällig für Bias bleiben, da sie sich auf das Fehlen von Merkmalen stützen, anstatt auf inhärente Eigenschaften der Klasse.
Zukunft: Die vorgeschlagenen Methoden sind leicht implementierbar und können auf andere Domänen (z. B. NLP, Generative Modelle) übertragen werden, um inhibitorische Beziehungen zwischen Konzepten zu identifizieren.

Zusammenfassend argumentieren die Autoren, dass „Was fehlt" genauso wichtig ist wie „Was da ist", und bieten die technischen Werkzeuge, um dieses „Fehlen" sichtbar und erklärbar zu machen.