MVGT: A Multi-view Graph Transformer Based on Spatial Relations for EEG Emotion Recognition

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Ihr Gehirn ist wie ein riesiges, hochkomplexes Orchester. Wenn Sie eine Emotion fühlen – sei es Freude, Trauer oder Angst – spielen nicht nur einzelne Instrumente (die einzelnen Nervenbahnen), sondern das gesamte Orchester spielt ein spezifisches Stück zusammen.

Die Wissenschaftler aus diesem Papier haben ein neues Werkzeug entwickelt, um diese „Gehirn-Musik" zu verstehen und Emotionen automatisch zu erkennen. Sie nennen ihr Werkzeug MVGT. Hier ist eine einfache Erklärung, wie es funktioniert, ohne den technischen Jargon:

1. Das Problem: Nur eine Perspektive reicht nicht

Bisher haben viele Computer-Programme versucht, die Gehirnwellen (EEG) zu lesen, indem sie sich nur auf eine Art und Weise konzentrierten:

Entweder nur auf den Rhythmus (wie schnell die Wellen kommen).
Oder nur auf den Klang (welche Frequenz sie haben).
Oder nur darauf, welche Instrumente zusammen spielen (welche Bereiche des Kopfes aktiv sind).

Das ist, als würde man versuchen, ein Symphoniekonzert zu verstehen, indem man sich nur den Schlagzeuger anhört oder nur die Geige. Man verpasst das große Ganze. Das Gehirn ist jedoch ein Meisterwerk der Koordination, bei dem Zeit, Frequenz und Ort untrennbar miteinander verbunden sind.

2. Die Lösung: Der „Multi-View"-Detektiv (MVGT)

Das neue Modell, MVGT, ist wie ein super-intelligenter Detektiv, der drei verschiedene Brillen gleichzeitig aufsetzt, um das Bild vollständig zu sehen:

Brille 1: Die Zeit-Lupe (Temporale Dynamik)
Statt nur einen einzelnen Moment zu betrachten (wie ein Foto), schaut sich MVGT einen ganzen Filmclip an. Es nimmt sich einen kurzen, kontinuierlichen Abschnitt der Gehirnwellen und analysiert, wie sich die Signale über die Zeit entwickeln. So erkennt es nicht nur was passiert, sondern wie es sich entwickelt.
Brille 2: Der Klang-Analyst (Frequenz)
Das Modell zerlegt die Gehirnwellen in ihre „Farben" oder Tonhöhen (wie bei einem Equalizer). Es weiß genau, welche Frequenzbänder (tiefes Brummen vs. hohes Zischen) für welche Emotionen typisch sind. Es nutzt dabei eine spezielle mathematische Methode (Differential Entropy), die wie ein sehr sensibler Mikrophon-Verstärker funktioniert, der die feinsten Nuancen der Emotionen heraushört.
Brille 3: Die Landkarte (Räumliche Beziehungen)
Dies ist das Herzstück des Modells. Das Gehirn ist kein zufälliger Haufen von Kabeln; es hat eine feste Struktur.
- Die Gehirnregionen: Das Modell weiß, dass die Stirn anders funktioniert als der Hinterkopf, und dass die linke Seite anders ist als die rechte. Es gruppiert die Sensoren auf dem Kopf wie Nachbarschaften in einer Stadt.
- Die Entfernungen: Es berücksichtigt, wie weit zwei Sensoren voneinander entfernt sind. Zwei Sensoren, die nah beieinander liegen, haben oft eine stärkere Verbindung als zwei, die weit auseinander liegen.
- Die Wichtigkeit: Es lernt, welche Sensoren in diesem Moment die „Chefs" sind und welche nur „Zuschauer".

3. Wie alles zusammenkommt: Der Graph-Transformer

Stellen Sie sich vor, MVGT ist ein Dirigent, der alle drei Informationen (Zeit, Klang, Ort) in einem riesigen Netzwerk zusammenführt.

Es nutzt eine Technik namens „Graph Transformer". Das ist wie ein super-flexibles Netz, das Verbindungen zwischen allen Punkten im Gehirn herstellen kann, ohne dabei „verwirrt" zu werden (ein Problem, das ältere Modelle hatten, bei denen zu viele Informationen sich gegenseitig auslöschten).
Es passt sich dynamisch an: Wenn es eine Emotion wie „Freude" erkennt, weiß es, dass bestimmte Bereiche der Stirn besonders aktiv sind. Bei „Angst" schaut es vielleicht mehr auf die Seiten des Gehirns.

4. Das Ergebnis: Ein klareres Bild

Die Forscher haben ihr Modell mit vielen anderen getestet und es hat gewonnen.

Warum? Weil es nicht nur oberflächlich schaut, sondern die tiefe, komplexe Struktur der Gehirnaktivität versteht.
Was bedeutet das? Es kann Emotionen mit einer sehr hohen Genauigkeit erkennen (über 96% in Tests). Das ist ein großer Schritt für die Zukunft, wo Computer vielleicht verstehen könnten, wie wir uns fühlen, noch bevor wir es selbst merken, oder um Therapien für Menschen mit emotionalen Störungen zu verbessern.

Zusammenfassend:
Früher haben Computer versucht, das Gehirn wie einen einfachen Schalter zu verstehen (An/Aus). MVGT versteht das Gehirn wie ein lebendiges, sich ständig veränderndes Orchester. Es hört nicht nur auf die Instrumente, sondern versteht, wie sie zusammen spielen, wann sie spielen und welche Rolle sie im großen Ganzen haben. Das macht es zum besten Detektiv für menschliche Gefühle, den wir bisher hatten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Analyse von Gehirnaktivität mittels Elektroenzephalographie (EEG) spielt eine zentrale Rolle in der affektiven Computing-Forschung, insbesondere zur Erkennung von Emotionen. EEG-Signale enthalten reiche Informationen in drei Domänen: zeitlich (Dynamik über die Zeit), frequenzbasiert (Spektraleigenschaften) und räumlich (Verteilung über die Elektrodenkanäle).

Das Hauptproblem besteht darin, dass traditionelle Ansätze oft nur eine dieser Perspektiven isoliert betrachten oder die komplexen Wechselwirkungen zwischen diesen Domänen nicht ausreichend modellieren.

Zeitliche Modelle (z. B. RNNs, CNNs) haben Schwierigkeiten, lange Abhängigkeiten zu erfassen oder leiden unter nicht ausgerichteten Ereignissen innerhalb eines Zeitpunkts.
Räumliche Modelle (z. B. Graph Neural Networks, MPGNN) neigen zu Problemen wie „Over-smoothing" (Verwischung von Informationen) und nutzen oft die anatomische und geometrische Struktur des Gehirns nicht optimal aus.
Frequenzdomäne: Es fehlt oft eine effiziente Integration der frequenzspezifischen Merkmale (wie Differentielle Entropie) in die Architektur.

2. Methodik: MVGT (Multi-view Graph Transformer)

Die Autoren schlagen MVGT vor, einen Multi-View-Graph-Transformer, der Informationen aus allen drei Domänen integriert, um die Repräsentationskraft des Modells zu maximieren.

A. Frequenzdomäne (Feature-Extraktion)

Als Eingangsmerkmale werden Differentielle Entropie (DE)-Features verwendet. DE gilt als robust und effektiv zur Unterscheidung von EEG-Mustern in verschiedenen Frequenzbändern ( $\delta, \theta, \alpha, \beta, \gamma$ ). Diese Features bilden die Basis für die Knotenattribute im Graphen.

B. Zeitliche Einbettung (Temporal Embedding)

Statt einzelne Zeitpunkte als Tokens zu behandeln (was zu nicht ausgerichteten Ereignissen führen kann), behandelt MVGT kontinuierliche Zeitsegmente als Tokens.

Ansatz: Durch ein überlappendes Sliding-Window werden ganze Zeitabschnitte ( $T$ ) extrahiert.
Verarbeitung: Diese Segmente werden als Eingabe für Feed-Forward-Neuronale Netze (FFN) innerhalb des Transformers verwendet. Dies erweitert das rezeptive Feld und ermöglicht das Erfassen zeitlicher Dynamiken pro Kanal, bevor die Aufmerksamkeit (Attention) über die Kanäle hinweg angewendet wird.

C. Räumliche Kodierung (Spatial Encoding)

Um die räumlichen Beziehungen zwischen EEG-Kanälen zu modellieren, werden drei Kodierungsarten in den Transformer integriert:

Brain Region Encoding (BRE): Basierend auf neurowissenschaftlichen Erkenntnissen werden Elektroden in Hirnregionen gruppiert (z. B. Lappen, Frontalbereich, Hemisphären). Es werden vier Schemata definiert: LOBE, GENERAL, FRONTAL, HEMISPHERE. Dies hilft dem Modell, intra- und inter-regionale Informationen zu aggregieren.
Centrality Encoding (CE): Berechnet die relative Wichtigkeit eines Knotens im Netzwerk basierend auf der Summe der Kantengewichte.
Geometric Structure Encoding (GSE): Modelliert die physikalischen Abstände zwischen den Elektroden im 3D-Raum. Anstatt eine feste Adjazenzmatrix zu verwenden, werden die euklidischen Distanzen $\phi(i, j)$ durch Gaußsche Basisfunktionen kodiert. Diese Kodierung wird als Bias-Term in die Softmax-Aufmerksamkeitsfunktion eingefügt, um die Aufmerksamkeit adaptiv an die räumliche Nähe anzupassen.

D. Architektur

Das Modell nutzt einen Graph Transformer mit Multi-Head-Attention (MHA).

Die Attention-Mechanismen nutzen die GSE-Bias-Terme, um gerichtete Beziehungen zwischen Kanälen $(i, j)$ und $(j, i)$ zu lernen.
Recycling (Iterative Verfeinerung): Die Ausgabe des Modells wird rekursiv wieder in dieselben Module eingespeist, um die Diskriminierungsfähigkeit der kodierten Informationen schrittweise zu verfeinern.
Pre-LN Struktur: Layer Normalization wird vor den Attention- und FFN-Schichten angewendet, um stabilere Gradienten und schnelleres Konvergieren zu gewährleisten.

3. Wichtige Beiträge

Multi-Domain-Integration: MVGT ist einer der ersten Ansätze, der zeitliche, frequenzbasierte und räumliche Informationen in einem einzigen Transformer-Framework nahtlos kombiniert.
Innovative Zeitliche Einbettung: Der Wechsel von „Zeitpunkt-basierten" zu „Segment-basierten" Tokens löst das Problem der Zeit-Desynchronisation und verbessert die Erfassung zeitlicher Muster.
Geometrische Räumliche Kodierung: Die Einführung von GSE als Bias in der Attention-Mechanismus erlaubt es dem Modell, die anatomische Struktur des Gehirns zu nutzen, ohne starre Graphstrukturen vorzugeben. Dies vermeidet die Nachteile von klassischen GNNs (Over-smoothing).
Flexible Hirnregionen-Schemata: Die Untersuchung verschiedener Kodierungsschemata (LOBE, FRONTAL etc.) zeigt, dass datenspezifische räumliche Partitionierungen die Leistung signifikant steigern können.

4. Ergebnisse

Das Modell wurde auf den öffentlichen Datensätzen SEED und SEED-IV evaluiert und mit State-of-the-Art-Methoden (wie DGCNN, BiDANN, RGNN, EmoGT) verglichen.

SEED-Datensatz: MVGT (mit dem FRONTAL-Schema) erreichte eine Genauigkeit von 96,55 % (Standardabweichung 4,18), was eine Steigerung von 1,23 % gegenüber dem besten Baseline-Modell (MV-SSTMA) darstellt.
SEED-IV-Datensatz: MVGT (mit dem GENERAL-Schema) erreichte 94,03 % Genauigkeit, eine Verbesserung von 1,21 % gegenüber dem besten Baseline.
Ablationsstudie: Die Studie bestätigte, dass jeder der vier Komponenten (Inverted Temporal Embedding, GSE, BRE, CE) einen positiven Beitrag leistet. Besonders die geometrische Strukturkodierung (GSE) hatte den größten Einfluss auf die Leistungssteigerung.
Visualisierung: Die Analyse der Attention-Gewichte zeigte, dass emotionale Aktivität nicht isoliert in einem Bereich stattfindet, sondern durch koordinierte Interaktionen zwischen frontalen, temporalen und parietalen Regionen erfolgt.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass die explizite Modellierung räumlicher Beziehungen durch geometrische Kodierung in Kombination mit einer erweiterten zeitlichen Einbettung die Leistung von EEG-basierten Emotionserkennungssystemen erheblich verbessert.

Wissenschaftlicher Wert: MVGT liefert Einblicke darin, wie Emotionen im Gehirn durch verteilte Netzwerke verarbeitet werden, und bietet einen robusten Rahmen für die Verarbeitung von Graphdaten mit komplexen räumlichen und zeitlichen Abhängigkeiten.
Anwendbarkeit: Da das Modell die anatomische Struktur des Gehirns berücksichtigt, ist es besonders gut für physiologische Signale geeignet, bei denen die räumliche Anordnung der Sensoren (Elektroden) physikalisch und funktionell relevant ist.
Zukunftsausblick: Die Methode könnte als Vorlage für andere Aufgaben der kognitiven Neuroinformatik dienen, bei denen Multi-Domain-Daten integriert werden müssen.

Zusammenfassend stellt MVGT einen bedeutenden Fortschritt in der EEG-Emotionserkennung dar, der die Grenzen traditioneller single-perspective Ansätze überwindet.