Beyond Object-Level Alignment: Do Brains and DNNs… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Yukiyasu Kamitani

Veröffentlicht 2026-05-08

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Yukiyasu Kamitani

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen herauszufinden, ob ein menschliches Gehirn und ein Computer-Vision-Modell (ein Deep Neural Network, oder DNN) ähnlich „denken".

Traditionell haben Wissenschaftler gefragt: „Wenn wir ihnen dasselbe Bild zeigen, kommen sie auf dieselbe Beschreibung?"

Der alte Weg: Zeigen Sie ein Bild einer Katze. Das Gehirn sagt „Katze". Der Computer sagt „Katze". Großartig! Sie stimmen überein.
Das Problem: Dies prüft nur, ob sie beim Ergebnis übereinstimmen. Es prüft nicht, ob sie beim Weg dorthin übereinstimmen. Vielleicht sieht das Gehirn eine Katze, weil sie Fell und Schnurrhaare hat, während der Computer eine Katze sieht, weil sie einen bestimmten Grauton hat. Sie stimmen bei der Antwort überein, haben aber völlig unterschiedliche Wege eingeschlagen, um dorthin zu gelangen.

Dieser Artikel schlägt eine neue Art vor, die Frage zu stellen: „Wenn wir das Bild auf eine bestimmte Weise verändern, ändern sowohl das Gehirn als auch der Computer ihr Verständnis auf exakt dieselbe Weise?"

Die Kernidee: Der „Transformationstest"

Die Autoren verwenden ein Konzept aus der fortgeschrittenen Mathematik (Kategorientheorie), das Naturalität genannt wird. Um dies einfach zu erklären, verwenden wir eine Reise-Analogie.

Stellen Sie sich zwei Reisende vor:

Reisender A (Das Gehirn)
Reisender B (Der Computer)

Beide starten in derselben Stadt (Bild 1: Ein Hund). Beide wollen in eine neue Stadt gelangen (Bild 2: Eine Katze).

Der alte Test: Sind sie beide in der „Katzenstadt" angekommen? Wenn ja, sind sie ausgerichtet.
Der neue Test (Naturalität): Wir geben ihnen eine spezifische Anweisung: „Machen Sie einen Schritt nach rechts."
- Wenn Reisender A einen Schritt nach rechts macht, landet er in „Hundestadt, etwas rechts".
- Wenn Reisender B einen Schritt nach rechts macht, landet er in „Katzenstadt, etwas rechts".
- Die Frage: Wenn wir Reisender As „etwas rechts" in die Sprache von Reisender B übersetzen, stimmt dies mit Reisender Bs tatsächlichem „etwas rechts" überein?

Wenn die Antwort ja lautet, bedeutet dies, dass sie nicht nur beim Zielort übereinstimmen; sie stimmen bei den Verkehrsregeln überein. Sie bewahren dieselben „Transformationen".

Das „Naturalitäts-Quadrat" (Der Karten-Check)

Der Artikel visualisiert dies als ein quadratisches Kartenfeld mit vier Ecken:

Start: Bild A (Gehirn-Version)
Ende: Bild B (Gehirn-Version)
Start: Bild A (Computer-Version)
Ende: Bild B (Computer-Version)

Es gibt zwei Möglichkeiten, von oben links nach unten rechts zu gelangen:

Pfad 1: Bild verändern (Gehirn-Stil) $\rightarrow$ In Computersprache übersetzen.
Pfad 2: In Computersprache übersetzen $\rightarrow$ Bild verändern (Computer-Stil).

Wenn Gehirn und Computer wirklich ausgerichtet sind, müssen Pfad 1 und Pfad 2 exakt zum selben Ort führen. Wenn sie zu unterschiedlichen Orten führen, schließt sich das „Quadrat" nicht, und sie sind nicht wirklich ausgerichtet, selbst wenn sie bei den Bildern selbst übereinstimmen.

Die Autoren entwickelten einen Score namens NVS (Naturalitäts-Verletzungs-Score), um zu messen, wie stark diese beiden Pfade voneinander abweichen. Ein niedriger Score bedeutet, dass sie denselben Weg gehen; ein hoher Score bedeutet, dass sie unterschiedliche Wege gehen.

Das Experiment: Eine synthetische Spielzeugwelt

Zuerst testeten sie dies in einer gefälschten, erfundenen Welt mit 5 einfachen Faktoren (wie Position, Größe, Farbe usw.).

Sie bauten ein „Gehirn", das alle 5 Faktoren kannte.
Sie bauten einen „Computer", der nur 2 Faktoren kannte (Position).
Sie bauten einen weiteren „Computer", der nur die anderen 3 Faktoren kannte (Größe, Farbe).

Das Ergebnis:

Alte Metriken: Beide Computer sahen „ziemlich gut" aus, weil sie die richtigen Antworten für die Bilder erhielten, die sie kannten. Die alten Tests konnten nicht unterscheiden, welcher welcher Information fehlte.
Neue Metrik (NVS): Sie erkannte den Unterschied sofort. Sie sagte: „Computer A ist großartig beim Bewegen nach links/rechts, aber schrecklich beim Ändern der Größe. Computer B ist das Gegenteil." Sie enthüllte die versteckte Struktur, die die alten Tests übersehen hatten.

Der Realwelt-Test: Menschliche Gehirne vs. KI

Dann wendeten sie dies auf reale Daten an:

Gehirne: fMRI-Scans von 5 Personen, die Bilder von Objekten betrachteten.
Computer: Drei verschiedene berühmte KI-Modelle (AlexNet, ResNet, ViT).
Das „Weltmodell": Um zu definieren, was eine „Veränderung" ist, verwendeten sie drei verschiedene KI-Tools (CLIP, DINOv2, DreamSim), die wie Wörterbücher für Konzepte wie „Lebendigkeit" (ist es lebendig?), „Größe", „Helligkeit" oder „Textur" fungieren.

Die große Entdeckung: Der „Hierarchie-Übergang"

Sie stellten fest, dass Gehirn und KI nicht in allem gleichermaßen übereinstimmen. Sie stimmen in bestimmten Dingen auf bestimmten Ebenen des Gehirns/der KI überein:

Niedrigstufige Dinge (Helligkeit, Textur): Die frühen visuellen Bereiche des Gehirns (V1) und die frühen Schichten der KI stimmen bei diesen am besten überein.
Hochstufige Dinge (Ist es lebendig? Ist es groß?): Die höheren Bereiche des Gehirns (HVC) und die tiefen Schichten der KI stimmen bei diesen am besten überein.
Der „Lebendigkeit"-Gewinner: Die stärkste Übereinstimmung wurde für das Konzept der Lebendigkeit (Unterscheidung zwischen lebenden und nicht-lebenden Dingen) gefunden. Das Gehirn und die tiefen Schichten der KI waren fast perfekt synchronisiert, wenn es darum ging, festzustellen, ob etwas lebendig war oder nicht.

Warum dies wichtig ist

Der Artikel argumentiert, dass wir nicht nur fragen sollten: „Sieht die KI dasselbe Bild wie der Mensch?"
Wir sollten fragen: „Versteht die KI die Beziehungen zwischen Bildern auf dieselbe Weise wie der Mensch?"

Alte Sichtweise: „Sie sehen beide eine Katze." (Statisch)
Neue Sichtweise: „Wenn Sie die Katze größer machen, verstehen beide ‚größer' auf dieselbe Weise. Wenn Sie sie lebendig machen, verstehen beide ‚lebendig' auf dieselbe Weise." (Dynamisch)

Die Autoren kommen zu dem Schluss, dass wir durch die Verwendung dieses „Naturalitäts"-Tests genau sehen können, welche Teile des Gehirns und welche Schichten der KI wirklich zusammenarbeiten und welche Teile nur raten oder andere Regeln verwenden. Es verwandelt eine verschwommene „Ja/Nein"-Antwort in eine detaillierte Karte davon, wo die Ausrichtung tatsächlich stattfindet.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Über die Objektebene hinaus

Problemstellung
Bestehende Metriken zur Ausrichtung von Gehirn- und Deep-Neural-Network (DNN)-Repräsentationen – wie Kodierungs-/Dekodierungsgenauigkeit, Brain-Score, Representational Similarity Analysis (RSA) und Centered Kernel Alignment (CKA) – bewerten primär die Korrespondenz auf Objektebene oder die globale Geometrie des Stimulus-Sets. Diese Metriken fassen zusammen, wie stark zwei Systeme bei einzelnen Stimuli oder der Gesamtform ihrer Repräsentationsräume übereinstimmen. Sie testen jedoch nicht direkt, ob die beiden Systeme dieselben Transformationen oder Relationen zwischen Stimuli bewahren. Zwei Systeme können bei Vorhersagen pro Stimulus und der globalen Geometrie übereinstimmen und dennoch darin divergieren, welche spezifischen Änderungen zwischen Stimuli als äquivalent, stabil oder bedeutsam behandelt werden. Die Arbeit fragt: „Wenn Gehirn und Modell denselben Bilden ähnliche Codes zuweisen, bewegen sie sich dann auch auf dieselbe Weise zwischen den Bildern?"

Methodik: Approximative Natürlichkeit und NVS
Inspiriert von der Kategorientheorie reframen die Autoren die Ausrichtung als Frage der approximativen Natürlichkeit. Sie postulieren, dass, wenn eine Kandidaten-Stimulus-Transformation in einem externen „Weltmodell"-Proxy-Raum ( $W$ ) definiert ist, sie kompatibel durch sowohl den Gehirn- ( $B$ ) als auch den Modellraum ( $M$ ) propagieren sollte.

Das Framework wird über eine „Cospan"-Struktur operationalisiert, die Folgendes umfasst:

Externer Proxy-Raum ( $W$ ): Ein begrenzter Weltmodell-Proxy (z. B. CLIP-Text, DINOv2, DreamSim), der Kandidaten-Stimulusänderungen parametrisiert. Eine Transformation wird als Vektordifferenz definiert: $\Delta W = F_W(s') - F_W(s)$ .
Übersetzer ( $\eta, \eta'$ ): Lineare Abbildungen zwischen Gehirn- und Modellräumen (Dekodierer $\eta: B \to M$ und Kodierer $\eta': M \to B$ ), die mittels standardmäßiger Ridge-Regression an Stimulus-Paaren angepasst werden.
Welt-zu-Raum-Abbldungen ( $\Phi_B, \Phi_M$ ): Lineare Abbildungen, die die Proxy-Differenz $\Delta W$ jeweils in den Gehirn- und Modellraum projizieren.

Die Kernhypothese ist das Natürlichkeitsquadrat:
$\eta \circ \Phi_B(\Delta W) \approx \Phi_M(\Delta W) \circ \eta$
Diese Gleichung testet, ob die Übersetzung einer Stimulusänderung von der Welt ins Gehirn und dann ins Modell dasselbe Ergebnis liefert wie die direkte Übersetzung der Weltänderung ins Modell.

Um Abweichungen von dieser Kommutativität zu quantifizieren, führen die Autoren den Naturality Violation Score (NVS) ein. NVS ist definiert als der relative $L_2$ -Residuum der Natürlichkeitsgleichung, normalisiert auf einen Permutations-Nullwert (bei dem die Paarungen über die Räume zufällig gemischt werden, um die Korrespondenz zu zerstören, während die marginale Geometrie erhalten bleibt).

NVS = 1,0: Zufallsniveau (keine Struktur bewahrt).
NVS = 0: Perfekte Kommutativität (perfekte Bewahrung der Transformationsstruktur).
Achsen-aufgelöster NVS: Die Methode ermöglicht die Zerlegung von $\Delta W$ entlang spezifischer Richtungen von Concept Activation Vectors (CAV) (z. B. Lebewesenhaftigkeit, Helligkeit, reale Größe), um die Bewahrung spezifischer Morphismus-Familien zu testen.

Hauptbeiträge

Reframing der Ausrichtung: Die Arbeit verschiebt die Frage der Ausrichtung von „Objekt-zu-Objekt-Gleichheit" hin zu „Bewahrung von Struktur unter explizit gewählten Vergleichsabbildungen" und nutzt eine operative Analogie aus der Kategorientheorie.
NVS-Metrik: Die Definition von NVS als permutations-normalisiertes Residuum, das die Übereinstimmung auf Transformationsebene isoliert, getrennt von statischer Geometrie oder Readout-Genauigkeit.
Synthetischer Proof of Concept: Eine kontrollierte synthetische Welt mit fünf Faktoren zeigt, dass NVS komplementäre Ausrichtungsfehler trennen kann (z. B. ein Modell, das Position gegenüber Objektidentität bewahrt), die Standard-Skalenmetriken (Kodierung $r$ , RSA, CCA) zu nicht unterscheidbaren hohen Werten verschmelzen lassen.
Empirischer Hierarchie-Übergang: Die Anwendung auf den GOD-Datensatz (5 Probanden, 3 Vision-DNNs, 3 Weltmodell-Proxy) offenbart eine selektive Hierarchie:
- Niedrigstufige visuelle Achsen (Helligkeit, räumliche Frequenz) stimmen am besten mit dem frühen visuellen Kortex (V1) und flachen DNN-Schichten überein.
- Semantische Achsen (insbesondere Lebewesenhaftigkeit) stimmen am stärksten mit dem höheren visuellen Kortex (HVC) und tieferen DNN-Schichten überein.
- Mittelstufige Achsen (Textur, Kurvigkeit) besetzen Zwischenpositionen.
Dissociation von bestehenden Metriken: Die Varianzzerlegung zeigt, dass NVS nicht lediglich eine Neu-Beschreibung der Kodierungs-/Dekodierungsgenauigkeit oder RSA ist. Die Achsenidentität erklärt einen signifikanten Anteil der NVS-Varianz (~34 %) unabhängig von Kovariaten der Readout-Qualität. Darüber hinaus ist NVS robust gegenüber additiver Sitzungs-Bias, während RSA unter ähnlichen Bedingungen kollabiert.

Ergebnisse

Synthetische Daten: NVS identifizierte erfolgreich, welche Faktoren (Position vs. Objektidentität) spezifische DNN-Kandidaten bewahrten, während Standardmetriken nicht zwischen Modellen unterscheiden konnten, die disjunkte Teilmengen von Faktoren bewahrten.
Empirische Daten (GOD):
- Lebewesenhaftigkeit trat als die am stärksten ausrichtende Achse hervor, mit dem niedrigsten gepoolten NVS ($0,39$) über Probanden und Modelle hinweg und übertraf andere Achsen signifikant (nächstbeste: $0,52$).
- Ein klarer Hierarchie-Übergang wurde beobachtet: Semantische Morphismen (Lebewesenhaftigkeit, reale Größe) zeigten einen abnehmenden NVS (bessere Ausrichtung) von V1 zu HVC und von flachen zu tiefen Schichten, während niedrigstufige Morphismen den entgegengesetzten Trend zeigten.
- Proxy-Abhängigkeit: Die Wahl des Weltmodell-Proxy ( $W$ ) hatte signifikante Auswirkungen auf die Ergebnisse. DreamSim (menschliche wahrgenommene Ähnlichkeit) lieferte allgemein niedrigere NVS-Werte (bessere Ausrichtung) als CLIP-Text oder DINOv2, insbesondere für niedrig- und mittelstufige visuelle Achsen.
- Kontrollexperimente: Eine „W-less"-Kontrolle, bei der Welt-Richtungen unabhängig in $B$ und $M$ gelernt wurden, ohne einen gemeinsamen Proxy, ergab NVS-Werte nahe dem Permutations-Nullwert ( $\approx 0,94$ ), was bestätigt, dass Ausrichtung einen gemeinsamen weltseitigen Anker erfordert.

Bedeutung und Behauptungen
Die Arbeit beansprucht einen bescheidenen, aber distincten Fortschritt im Vergleich von Gehirn und DNN. Sie behauptet nicht, zu beweisen, dass Gehirne und DNNs strikte Funktoren sind oder dass sie eine einzige vereinheitlichte Repräsentation teilen. Stattdessen argumentiert sie, dass:

Ausrichtung plural und selektiv ist: Verschiedene Klassen von Transformationen (Morphismen) werden in unterschiedlichen Gehirnregionen und Netzwerkschichten in unterschiedlichem Maße bewahrt.
NVS eine neue diagnostische Linse bietet: Es enthüllt Strukturen (z. B. die Hierarchie der Lebewesenhaftigkeit), die durch aggregierte skalare Metriken verdeckt werden.
Der Proxy-Raum Teil der wissenschaftlichen Frage ist: Die Wahl von $W$ (CLIP, DINO, DreamSim) bestimmt, welche Transformationen testbar sind, anstatt ein neutraler Störparameter zu sein.

Die Autoren schließen daraus, dass NVS den Vergleich von Gehirn und DNN in einen Test von „gemeinsam bewahrten Kandidaten-Transformationen" relativ zu einem expliziten Proxy-Raum verwandelt und einen Weg zu reichhaltigeren, kontrollierten weltseitigen Transformationen in zukünftiger Forschung eröffnet. Der Umfang beschränkt sich auf den spezifischen Datensatz und die verwendeten Proxy; das kategorische Framework wird als operative Analogie und nicht als strikter mathematischer Anspruch präsentiert.

Beyond Object-Level Alignment: Do Brains and DNNs Preserve the Same Transformations?