Beyond Object-Level Alignment: Do Brains and DNNs Preserve the Same Transformations?

Dieser Beitrag stellt den Naturality Violation Score (NVS) vor, eine von der Kategorientheorie inspirierte Metrik, die die Ausrichtung zwischen Gehirn und tiefen neuronalen Netzen bewertet, indem sie die Erhaltung von Stimulus-Transformationen statt statischer Ähnlichkeit auf Stimulus-Ebene misst und dabei unterschiedliche hierarchische Ausrichtungsmuster zwischen semantischen und visuellen Achsen in fMRI- und tiefen neuronalen Netzwerkdaten aufdeckt.

Ursprüngliche Autoren: Yukiyasu Kamitani

Veröffentlicht 2026-05-08
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Yukiyasu Kamitani

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen herauszufinden, ob ein menschliches Gehirn und ein Computer-Vision-Modell (ein Deep Neural Network, oder DNN) ähnlich „denken".

Traditionell haben Wissenschaftler gefragt: „Wenn wir ihnen dasselbe Bild zeigen, kommen sie auf dieselbe Beschreibung?"

  • Der alte Weg: Zeigen Sie ein Bild einer Katze. Das Gehirn sagt „Katze". Der Computer sagt „Katze". Großartig! Sie stimmen überein.
  • Das Problem: Dies prüft nur, ob sie beim Ergebnis übereinstimmen. Es prüft nicht, ob sie beim Weg dorthin übereinstimmen. Vielleicht sieht das Gehirn eine Katze, weil sie Fell und Schnurrhaare hat, während der Computer eine Katze sieht, weil sie einen bestimmten Grauton hat. Sie stimmen bei der Antwort überein, haben aber völlig unterschiedliche Wege eingeschlagen, um dorthin zu gelangen.

Dieser Artikel schlägt eine neue Art vor, die Frage zu stellen: „Wenn wir das Bild auf eine bestimmte Weise verändern, ändern sowohl das Gehirn als auch der Computer ihr Verständnis auf exakt dieselbe Weise?"

Die Kernidee: Der „Transformationstest"

Die Autoren verwenden ein Konzept aus der fortgeschrittenen Mathematik (Kategorientheorie), das Naturalität genannt wird. Um dies einfach zu erklären, verwenden wir eine Reise-Analogie.

Stellen Sie sich zwei Reisende vor:

  1. Reisender A (Das Gehirn)
  2. Reisender B (Der Computer)

Beide starten in derselben Stadt (Bild 1: Ein Hund). Beide wollen in eine neue Stadt gelangen (Bild 2: Eine Katze).

  • Der alte Test: Sind sie beide in der „Katzenstadt" angekommen? Wenn ja, sind sie ausgerichtet.
  • Der neue Test (Naturalität): Wir geben ihnen eine spezifische Anweisung: „Machen Sie einen Schritt nach rechts."
    • Wenn Reisender A einen Schritt nach rechts macht, landet er in „Hundestadt, etwas rechts".
    • Wenn Reisender B einen Schritt nach rechts macht, landet er in „Katzenstadt, etwas rechts".
    • Die Frage: Wenn wir Reisender As „etwas rechts" in die Sprache von Reisender B übersetzen, stimmt dies mit Reisender Bs tatsächlichem „etwas rechts" überein?

Wenn die Antwort ja lautet, bedeutet dies, dass sie nicht nur beim Zielort übereinstimmen; sie stimmen bei den Verkehrsregeln überein. Sie bewahren dieselben „Transformationen".

Das „Naturalitäts-Quadrat" (Der Karten-Check)

Der Artikel visualisiert dies als ein quadratisches Kartenfeld mit vier Ecken:

  1. Start: Bild A (Gehirn-Version)
  2. Ende: Bild B (Gehirn-Version)
  3. Start: Bild A (Computer-Version)
  4. Ende: Bild B (Computer-Version)

Es gibt zwei Möglichkeiten, von oben links nach unten rechts zu gelangen:

  • Pfad 1: Bild verändern (Gehirn-Stil) \rightarrow In Computersprache übersetzen.
  • Pfad 2: In Computersprache übersetzen \rightarrow Bild verändern (Computer-Stil).

Wenn Gehirn und Computer wirklich ausgerichtet sind, müssen Pfad 1 und Pfad 2 exakt zum selben Ort führen. Wenn sie zu unterschiedlichen Orten führen, schließt sich das „Quadrat" nicht, und sie sind nicht wirklich ausgerichtet, selbst wenn sie bei den Bildern selbst übereinstimmen.

Die Autoren entwickelten einen Score namens NVS (Naturalitäts-Verletzungs-Score), um zu messen, wie stark diese beiden Pfade voneinander abweichen. Ein niedriger Score bedeutet, dass sie denselben Weg gehen; ein hoher Score bedeutet, dass sie unterschiedliche Wege gehen.

Das Experiment: Eine synthetische Spielzeugwelt

Zuerst testeten sie dies in einer gefälschten, erfundenen Welt mit 5 einfachen Faktoren (wie Position, Größe, Farbe usw.).

  • Sie bauten ein „Gehirn", das alle 5 Faktoren kannte.
  • Sie bauten einen „Computer", der nur 2 Faktoren kannte (Position).
  • Sie bauten einen weiteren „Computer", der nur die anderen 3 Faktoren kannte (Größe, Farbe).

Das Ergebnis:

  • Alte Metriken: Beide Computer sahen „ziemlich gut" aus, weil sie die richtigen Antworten für die Bilder erhielten, die sie kannten. Die alten Tests konnten nicht unterscheiden, welcher welcher Information fehlte.
  • Neue Metrik (NVS): Sie erkannte den Unterschied sofort. Sie sagte: „Computer A ist großartig beim Bewegen nach links/rechts, aber schrecklich beim Ändern der Größe. Computer B ist das Gegenteil." Sie enthüllte die versteckte Struktur, die die alten Tests übersehen hatten.

Der Realwelt-Test: Menschliche Gehirne vs. KI

Dann wendeten sie dies auf reale Daten an:

  • Gehirne: fMRI-Scans von 5 Personen, die Bilder von Objekten betrachteten.
  • Computer: Drei verschiedene berühmte KI-Modelle (AlexNet, ResNet, ViT).
  • Das „Weltmodell": Um zu definieren, was eine „Veränderung" ist, verwendeten sie drei verschiedene KI-Tools (CLIP, DINOv2, DreamSim), die wie Wörterbücher für Konzepte wie „Lebendigkeit" (ist es lebendig?), „Größe", „Helligkeit" oder „Textur" fungieren.

Die große Entdeckung: Der „Hierarchie-Übergang"

Sie stellten fest, dass Gehirn und KI nicht in allem gleichermaßen übereinstimmen. Sie stimmen in bestimmten Dingen auf bestimmten Ebenen des Gehirns/der KI überein:

  1. Niedrigstufige Dinge (Helligkeit, Textur): Die frühen visuellen Bereiche des Gehirns (V1) und die frühen Schichten der KI stimmen bei diesen am besten überein.
  2. Hochstufige Dinge (Ist es lebendig? Ist es groß?): Die höheren Bereiche des Gehirns (HVC) und die tiefen Schichten der KI stimmen bei diesen am besten überein.
  3. Der „Lebendigkeit"-Gewinner: Die stärkste Übereinstimmung wurde für das Konzept der Lebendigkeit (Unterscheidung zwischen lebenden und nicht-lebenden Dingen) gefunden. Das Gehirn und die tiefen Schichten der KI waren fast perfekt synchronisiert, wenn es darum ging, festzustellen, ob etwas lebendig war oder nicht.

Warum dies wichtig ist

Der Artikel argumentiert, dass wir nicht nur fragen sollten: „Sieht die KI dasselbe Bild wie der Mensch?"
Wir sollten fragen: „Versteht die KI die Beziehungen zwischen Bildern auf dieselbe Weise wie der Mensch?"

  • Alte Sichtweise: „Sie sehen beide eine Katze." (Statisch)
  • Neue Sichtweise: „Wenn Sie die Katze größer machen, verstehen beide ‚größer' auf dieselbe Weise. Wenn Sie sie lebendig machen, verstehen beide ‚lebendig' auf dieselbe Weise." (Dynamisch)

Die Autoren kommen zu dem Schluss, dass wir durch die Verwendung dieses „Naturalitäts"-Tests genau sehen können, welche Teile des Gehirns und welche Schichten der KI wirklich zusammenarbeiten und welche Teile nur raten oder andere Regeln verwenden. Es verwandelt eine verschwommene „Ja/Nein"-Antwort in eine detaillierte Karte davon, wo die Ausrichtung tatsächlich stattfindet.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →