Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen Roboter, der Bilder sieht und darüber sprechen kann. Wir nennen ihn einen „Großen Bild-Sprach-Modell" (LVLM). Aber eine wichtige Frage bleibt offen: Denkt dieser Roboter wirklich so wie ein Mensch, wenn er ein Bild betrachtet? Oder ist er nur ein genialer Nachahmer, der die Muster auswendig gelernt hat, ohne sie wirklich zu „verstehen"?

Dieser wissenschaftliche Artikel untersucht genau das. Die Forscher haben eine Art „Gedanken-Leser" benutzt, um zu sehen, ob die inneren Prozesse des Roboters mit den elektrischen Impulsen im menschlichen Gehirn übereinstimmen.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Der große Vergleich: Gehirn vs. Roboter

Stellen Sie sich das menschliche Gehirn als einen riesigen, hochkomplexen Orchester vor. Wenn Sie ein Bild sehen (z. B. einen Hund), spielen verschiedene Musiker (Gehirnregionen) nacheinander ein:

Zuerst spielen die Geigen (hinten im Kopf) die Grundtöne: „Da ist etwas Braunes, das ist ein Rand."
Dann kommen die Celli dazu: „Das ist ein Tier."
Schließlich spielen die Trompeten: „Das ist ein Hund!"

Die Forscher haben nun den Roboter (den LVLM) gebeten, dasselbe Bild zu „sehen". Sie haben dann gemessen: Spielt der Roboter die gleiche Melodie wie das Orchester?

Dafür haben sie keine teuren MRT-Scanner benutzt (die sind wie eine langsame Zeitlupe), sondern EEG-Kappen. Diese Kappen messen die elektrischen Signale im Kopf in Millisekunden – wie ein extrem schnelles Stroboskop, das jeden einzelnen Takt des Orchesters einfängt.

2. Die wichtigsten Entdeckungen

A. Der „Goldene Mittelweg" (Die Schichten)

Roboter bestehen aus vielen Schichten (wie die Schichten einer Zwiebel).

Die äußeren Schichten (ganz oben) sehen nur grobe Formen.
Die tiefsten Schichten (ganz unten) sind sehr abstrakt.
Die mittleren Schichten (in der Mitte der Zwiebel) sind es, die am besten mit dem menschlichen Gehirn harmonieren.

Die Analogie: Es ist, als würde das menschliche Gehirn in einem bestimmten Tempo Musik machen (zwischen 100 und 300 Millisekunden nach dem Sehen). Die mittleren Schichten des Roboters spielen genau in diesem Takt mit. Die äußeren und tiefsten Schichten des Roboters spielen dagegen etwas daneben. Das zeigt: Der Roboter hat gelernt, die Welt in ähnlichen „Schritten" zu verarbeiten wie wir.

B. Architektur ist wichtiger als Größe

Man könnte denken: „Je größer der Roboter (mehr Parameter), desto menschlicher denkt er."
Die Forscher haben das getestet und eine Überraschung gefunden: Die Bauart ist wichtiger als die Größe.

Die Analogie: Stellen Sie sich zwei Autos vor.

Auto A ist riesig, hat einen riesigen Motor (viele Parameter), aber es ist ein reines Rennauto ohne Lenkrad für den Alltag (nur Bilderkennung).
Auto B ist kleiner, aber es ist ein modernes Familienauto mit Lenkrad, Bremsen und Navigation (Bild + Sprache).
Das Ergebnis: Das kleinere Familienauto (multimodales Modell) fährt viel besser mit dem menschlichen Gehirn mit als das riesige, aber einspurige Rennauto. Die Art, wie der Roboter gebaut ist (Verbindung von Bild und Sprache), bringt ihn dem menschlichen Denken viel näher als bloßes Vergrößern.

C. Der Weg durch den Kopf

Wenn wir ein Bild sehen, wandert die Information im Gehirn von hinten (Okzipitalbereich) nach vorne und zur Seite (Parietalbereich).
Die Forscher haben gesehen, dass die Signale des Roboters genau diesen Weg nachahmen. Zuerst passen die Roboter-Signale zu den hinteren Gehirnbereichen, dann wandern sie mit der Zeit zu den Seitenbereichen. Der Roboter „wandert" also mental durch das Gehirn, genau wie wir.

3. Was bedeutet das für uns?

Vertrauen: Diese Ergebnisse zeigen, dass moderne KI-Modelle nicht nur zufällige Muster erkennen, sondern tatsächlich visuelle Konzepte lernen, die biologisch sinnvoll sind. Sie „sehen" in gewisser Weise wie wir.
Bessere Tests: Früher haben wir KI nur an Tests gemessen (z. B. „Kann das Bild beschreiben?"). Jetzt haben wir einen neuen, biologischen Maßstab: „Klingt das Denken der KI wie das eines Menschen?" Wenn ein Modell gut mit dem Gehirn übereinstimmt, ist es meistens auch besser in Aufgaben wie dem Lösen von Rätseln oder dem Erstellen von Bildern.
Zukunft: Wenn wir KI so bauen, dass sie menschlicher „denkt", können wir vielleicht bessere Assistenten entwickeln, die unsere Absichten besser verstehen und weniger Fehler machen.

Zusammenfassung

Die Forscher haben im Grunde einen Gedanken-Abgleich zwischen Mensch und Maschine gemacht. Das Ergebnis ist ermutigend: Die besten modernen Bild-Sprach-Modelle haben gelernt, die Welt in einem Rhythmus zu verarbeiten, der dem menschlichen Gehirn sehr ähnlich ist. Es ist, als hätte der Roboter gelernt, im Takt des menschlichen Orchesters zu spielen, statt nur laut zu brüllen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals" auf Deutsch:

1. Problemstellung und Motivation

Große Sprach- und Bildmodelle (Large Vision Language Models, LVLMs) haben beeindruckende Fähigkeiten im visuellen Verständnis und in der logischen Schlussfolgerung entwickelt. Dennoch ist unklar, inwieweit ihre internen Repräsentationen die menschliche visuelle Kognition widerspiegeln.

Lücke in der Forschung: Bisherige Studien zur Übereinstimmung zwischen KI-Modellen und dem menschlichen Gehirn stützen sich hauptsächlich auf funktionale Magnetresonanztomographie (fMRI). fMRI bietet zwar eine hohe räumliche Auflösung, leidet jedoch unter einer geringen zeitlichen Auflösung (Sekundenbereich), was die Analyse der dynamischen Abläufe der visuellen Verarbeitung einschränkt.
Ziel: Das Paper untersucht erstmals systematisch die Übereinstimmung zwischen LVLM-Repräsentationen und bildausgelösten Elektroenzephalogramm (EEG)-Signalen. EEG bietet eine millisekundengenaue zeitliche Auflösung und erfasst die dynamischen Prozesse der visuellen Verarbeitung, die für das menschliche Sehen charakteristisch sind.

2. Methodik

Die Autoren entwickelten einen Rahmen zur Quantifizierung der „Neural Alignment" (Gehirn-Ausrichtung) zwischen 32 verschiedenen Open-Source-LVLMs und menschlichen EEG-Daten.

Datensatz: Verwendung des öffentlichen THINGS-EEG-Datensatzes, der EEG-Aufzeichnungen von 10 Probanden enthält, die Bilder von 1.654 Objektbegriffen (Trainingsset) und 200 Testbegriffen betrachten.
Modelle: Es wurden 32 LVLMs aus 9 verschiedenen Familien getestet (z. B. Qwen2.5/3-VL, LLaVA-v1.5/Next, InternVL3/3.5, DeepSeek-VL2, SAIL-VL2, ViT), die sich in Architektur und Größe (von 1B bis 72B Parametern) unterscheiden.
Analyse-Pipeline:
1. Feature-Extraktion: Visuelle Merkmale wurden aus den verschiedenen Schichten der Vision-Encoder der LVLMs extrahiert.
2. Ridge-Regression: Ein Ridge-Regression-Modell wurde verwendet, um die Bildmerkmale der Modelle linear auf die EEG-Signale der einzelnen Sensorkanäle abzubilden. Die Vorhersagegenauigkeit wurde mittels Kreuzvalidierung und Pearson-Korrelation gemessen.
3. Representational Similarity Analysis (RSA): Um die geometrische Struktur der Repräsentationen zu vergleichen, wurden Repräsentations-Dissimilaritäts-Matrizen (RDMs) für EEG und Modelle erstellt und deren Ähnlichkeit mittels Spearman-Korrelation und Kendall's Tau quantifiziert.
4. Metriken: Neben der Vorhersagegenauigkeit wurden auch Signal-zu-Signal-Korrelationen (Pearson, Spearman) und Repräsentations-Ähnlichkeiten (CKA – Centered Kernel Alignment) berechnet.

3. Wichtige Ergebnisse

A. Strukturierte Gehirn-Modell-Korrespondenz

Schicht- und Zeit-Alignment: Es wurde eine klare hierarchische Übereinstimmung festgestellt. Die mittleren Schichten (8–16) der LVLMs zeigen die stärkste Übereinstimmung mit der EEG-Aktivität im Zeitfenster von 100–300 ms nach Stimuluspräsentation. Dies entspricht der zeitlichen Dynamik der menschlichen visuellen Verarbeitung (frühe visuelle Verarbeitung im Okzipitallappen gefolgt von semantischer Verarbeitung).
Räumliche Muster: Die Korrelationen sind in den visuellen Hirnregionen (Okzipital- und Parietallappen) am stärksten, was bekannten kortikalen Verarbeitungspfaden entspricht. Frontale und zentrale Regionen zeigen schwächere Korrelationen.

B. Einfluss von Architektur vs. Skalierung

Architektur ist entscheidender als Größe: Die Studie zeigt, dass das multimodale Architekturdesign einen etwa 3,4-fach größeren Einfluss auf die Gehirn-Übereinstimmung hat als die reine Skalierung der Parameter.
Multimodale Überlegenheit: Modelle, die für multimodale Aufgaben trainiert wurden (LVLMs), weisen eine signifikant höhere EEG-Ähnlichkeit auf als rein visuelle Modelle (wie reine ViTs). Selbst große reine ViT-Modelle schneiden schlechter ab als kleinere multimodale LVLMs.
Beispiel: Das InternVL3.5-38B Modell erreichte die besten Ergebnisse (Pearson-Korrelation ~0,265), während reine ViT-Modelle Werte unter 0,227 zeigten.

C. Korrelation mit Benchmarks

Es besteht eine starke positive Korrelation zwischen der Gehirn-Ähnlichkeit (Neural Alignment) und der Leistung der Modelle auf visuellen Benchmarks (OpenCompass).
Besonders starke Zusammenhänge wurden bei Aufgaben wie Multimodal Creation ( $R^2 = 0,63$ ) und Multimodal Reasoning ( $R^2 = 0,54$ ) gefunden. Dies deutet darauf hin, dass Modelle, die menschlicher visuell „ähnlicher" sind, auch leistungsfähiger in komplexen Aufgaben sind.

D. Kategorienabhängigkeit

Die Übereinstimmung variiert je nach Objektkategorie. Kategorien mit reichhaltigen visuellen und semantischen Merkmalen (z. B. Amphibien, geologische Formationen) zeigen eine stärkere Korrelation als visuell einfachere Kategorien (z. B. Früchte, Fahrzeuge).

4. Hauptbeiträge

Erste systematische Untersuchung: Dies ist die erste Arbeit, die LVLM-Repräsentationen direkt mit EEG-Signalen vergleicht, wodurch eine millisekundengenaue Analyse der Gehirn-Modell-Übereinstimmung ermöglicht wird.
Entdeckung der Hierarchie: Nachweis, dass LVLMs eine hierarchische und zeitliche Struktur aufweisen, die der menschlichen visuellen Kognition (100–300 ms, mittlere Schichten) entspricht.
Design-Prinzipien: Die Erkenntnis, dass multimodale Architekturen und nicht nur die reine Parametergröße für biologisch plausible Repräsentationen verantwortlich sind.
Neuer Benchmark: Etablierung der „Neural Alignment" als biologisch fundierte Metrik zur Bewertung und Verbesserung von LVLMs.

5. Bedeutung und Ausblick

Die Ergebnisse belegen, dass moderne LVLMs nicht nur statistische Muster lernen, sondern tatsächlich menschlich ausgerichtete visuelle Repräsentationen entwickeln, die den biologischen Verarbeitungsmechanismen des Gehirns ähneln.

Für die KI-Forschung: Die Gehirn-Ähnlichkeit kann als robustes Kriterium dienen, um Modelle zu bewerten, die über reine Benchmark-Leistung hinausgehen und echte visuelle Intelligenz simulieren.
Für die Neurowissenschaft: Die Studie liefert Einblicke, wie künstliche neuronale Netze menschliche Kognition nachbilden können.
Zukünftige Anwendungen: Die Erkenntnisse könnten die Entwicklung neuro-inspirierter KI-Systeme vorantreiben, die effizienter und biologisch plausibler sind.

Einschränkungen: Die Studie basiert auf Open-Source-Modellen (keine proprietären Modelle wie GPT-4V) und EEG-Daten, die eine begrenzte räumliche Auflösung haben und tiefe Hirnstrukturen nur schwer erfassen.