TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Geschichtenerzähler" im Computer

Stell dir vor, du hast einen sehr intelligenten Roboter, der Gesichter sieht und Gefühle erkennt (z. B. „Das ist traurig" oder „Das ist glücklich"). Bisher waren diese Roboter wie Geschichtenerzähler, die sehr gut darin waren, eine spannende Geschichte zu erfinden, aber oft die Wahrheit nicht kannten.

Das alte Modell: Der Roboter schaut auf ein Foto, denkt sich etwas aus („Oh, die Augen sind traurig") und sagt: „Es ist Trauer." Aber wenn du ihn fragst: „Wo genau im Bild siehst du das?", zeigt er oft auf die falsche Stelle oder erfindet Details, die gar nicht da sind. Er halluziniert. Das ist wie ein Arzt, der eine Diagnose stellt, ohne den Patienten wirklich zu untersuchen – er rät einfach basierend auf dem, was er gehört hat.
Das Risiko: In wichtigen Situationen (z. B. bei der Diagnose von psychischen Problemen oder in der Sicherheitstechnik) ist so ein „Raten" gefährlich. Man kann dem Roboter nicht trauen, wenn er nicht beweisen kann, warum er zu diesem Schluss kommt.

Die Lösung: TAG – Der „Anatomie-Experte"

Die Forscher haben eine neue Methode namens TAG (Thinking with Action Unit Grounding) entwickelt. Sie nennen es „Denken mit Verankerung in Gesichtsbewegungen".

Stell dir TAG nicht als Geschichtenerzähler vor, sondern als einen strengen Forensiker oder einen Anatomiestudenten, der genau weiß, wie Gesichtsmuskeln funktionieren.

Wie funktioniert TAG? (Die drei Schritte)

Der Muskel-Code (Action Units):
Unsere Gesichter bestehen aus vielen kleinen Muskeln. Wenn wir lachen oder weinen, bewegen sich bestimmte dieser Muskeln. In der Wissenschaft nennt man diese Bewegungen „Action Units" (AUs).
- Metapher: Stell dir das Gesicht wie ein Puppenspiel vor. Jeder Faden (Muskeln) hat eine Nummer. Wenn der Faden Nr. 14 gezogen wird, bewegt sich der Mundwinkel nach oben. Wenn Faden Nr. 4 gezogen wird, laufen die Augenbrauen zusammen. TAG lernt nicht einfach „Lachen", sondern lernt: „Faden Nr. 14 + Faden Nr. 12 = Lachen".
Der Beweis-Check (Grounding):
Das ist das Geniale an TAG: Bevor der Roboter sagt „Das ist Trauer", muss er erst beweisen, wo er die Muskeln sieht.
- Metapher: Es ist wie bei einem Detektiv, der einen Tatort untersucht. Er darf nicht einfach sagen: „Der Täter war hier." Er muss mit dem Finger auf die Stelle zeigen und sagen: „Hier sind Fußabdrücke (Muskeln), und hier ist ein zerbrochener Fingerabdruck (ein anderer Muskel)."
- TAG zwingt das Modell, einen Bounding-Box (einen roten Kasten) um die genaue Stelle im Bild zu zeichnen, wo der Muskel sich bewegt, und erst dann die Antwort zu geben.
Der strenge Lehrer (Belohnungssystem):
Wie lernt der Roboter das?
- Schritt 1 (SFT): Der Roboter bekommt tausende Beispiele gezeigt, wo ein Experte genau erklärt hat: „Schau hier auf die Augenbraue (Kasten), sie ist zusammengezogen." Der Roboter lernt, diese Muster zu kopieren.
- Schritt 2 (RL): Hier kommt der „strenge Lehrer" ins Spiel. Wenn der Roboter eine Antwort gibt, prüft ein separates, unabhängiges System (ein anderer Computer), ob der rote Kasten, den der Roboter gezeichnet hat, wirklich auf den richtigen Muskel zeigt.
  - Zeigt der Kasten auf die richtige Stelle? Gute Note!
  - Zeigt der Kasten ins Leere oder auf die falsche Stelle? Strafe! (Der Roboter bekommt keine Punkte, auch wenn die Antwort „Trauer" richtig war).

Warum ist das so wichtig?

Stell dir vor, du hast zwei Schüler für eine Prüfung:

Schüler A (Das alte Modell): Er kann die Antworten auswendig lernen. Er sagt „Trauer", weil er weiß, dass traurige Bilder oft dunkel sind. Aber wenn du ihn fragst, wo im Bild er die Trauer sieht, zeigt er auf den Hintergrund oder erfindet eine Träne, die gar nicht da ist. Er ist ein Schwindler.
Schüler B (TAG): Er zeigt dir genau auf die Augenpartie und sagt: „Schau, der Muskel hier ist angespannt (Kasten), und der Mundwinkel hängt runter. Deshalb ist es Trauer." Er ist ein ehrlicher Beweiser.

Die Ergebnisse

Die Forscher haben TAG an drei großen Tests (RAF-DB, FERPlus, AffectNet) geprüft. Das Ergebnis ist beeindruckend:

Bessere Genauigkeit: TAG ist nicht nur ehrlicher, sondern auch genauer als die besten bisherigen Modelle, sogar als riesige, teure Modelle von Firmen wie Google oder OpenAI.
Keine Halluzinationen: Weil TAG gezwungen wird, auf echte Muskeln zu zeigen, erfindet er keine falschen Details mehr. Er bleibt bei den Fakten des Bildes.
Vertrauen: Da wir sehen können, wohin der Roboter schaut, können wir ihm eher vertrauen. Wenn er auf die falsche Stelle zeigt, wissen wir sofort, dass er sich irrt.

Fazit in einem Satz

TAG verwandelt den KI-Gesichtserkennungs-Roboter von einem erfinderischen Geschichtenerzähler, der oft lügt, in einen wissenschaftlich arbeitenden Anatom, der jede Aussage mit einem sichtbaren Beweis untermauert – und dadurch nicht nur ehrlicher, sondern auch klüger wird.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Gesichtsausdruckserkennung (Facial Expression Recognition, FER) ist eine feinkörnige visuelle Aufgabe, bei der verlässliche Vorhersagen eine reasoning über lokalisierte und bedeutungsvolle Gesichtssignale erfordern.

Herausforderung: Herkömmliche tiefe neuronale Netze arbeiten oft als „Black Boxes" ohne Erklärbarkeit.
Limitierung aktueller VLMs: Zwar ermöglichen Vision-Language-Modelle (VLMs) natürliche Sprach-Erklärungen, doch deren Schlussfolgerungen sind häufig nicht verankert (ungrounded). Sie produzieren flüssige, plausible, aber visuell nicht belegbare Begründungen, die anfällig für Halluzinationen sind und auf Datensatz-Bias statt auf tatsächlichen visuellen Evidenzen basieren. Dies führt zu mangelnder Robustheit und geringer Vertrauenswürdigkeit, insbesondere beim Wechsel zwischen verschiedenen Datensätzen.

2. Methodik: TAG (Thinking with Action Unit Grounding)

Das vorgeschlagene Framework TAG zielt darauf ab, multimodales Reasoning explizit durch Gesichts-Aktions-Einheiten (Action Units, AUs) zu verankern. AUs entsprechen physiologisch sinnvollen Muskelaktivierungen und bieten eine strukturierte Zwischenrepräsentation zwischen rohen Pixeln und semantischen Emotionslabels.

Der Ansatz besteht aus zwei Hauptphasen:

A. Überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT)

Struktur: Das Modell wird auf einem großen Datensatz (TAG-310k) trainiert, der aus bestehenden FER-Benchmarks (RAF-DB, FERPlus, AffectNet) abgeleitet wurde.
Format: Die Trainingsdaten folgen einem festen Format:
1. Globaler Analyse-Block: Beschreibung des gesamten Gesichts.
2. Lokale Verifikation: Das Modell muss bis zu drei Regionen identifizieren und diese mit Bounding-Boxen (<bbox>) markieren, die spezifischen AUs entsprechen.
3. Schlussfolgerung: Ausgabe des Emotionslabels.
Ziel: Das Modell lernt, Zwischenschritte des Reasonings an AU-bezogene Gesichtsregionen zu koppeln, anstatt freie Texterklärungen zu generieren.

B. Reinforcement Learning (RL) mit AU-bewusster Belohnung

Optimierung: Nach dem SFT wird das Modell mit GRPO (Group Relative Policy Optimization) weiterverfeinert.
Belohnungsfunktion (Reward): Die Belohnung setzt sich aus drei Komponenten zusammen:
1. Format-Reward ( $R_{fmt}$ ): Sicherstellung der korrekten Ausgabestruktur.
2. Antwort-Reward ( $R_{ans}$ ): Korrektheit des finalen Emotionslabels.
3. AU-Grounding-Reward ( $R_{AU}$ ): Dies ist der Kerninnovation. Sie misst die IoU (Intersection over Union) zwischen den vom Modell vorhergesagten Bounding-Boxen und den Regionen, die von einem externen, vortrainierten AU-Detektor (z. B. GraphAU) als aktiv erkannt wurden.
Effekt: Dieser Reward zwingt das Modell dazu, seine Vorhersagen durch verifizierbare visuelle Evidenz zu stützen und verhindert, dass das Modell durch „Reward Hacking" (z. B. übermäßiges Vorhersagen von Boxen) die Belohnung manipuliert.

3. Schlüsselbeiträge

Identifikation des Problems: Aufzeigen, dass ungrounded Reasoning in VLMs zu Halluzinationen und schlechter Robustheit in der FER führt.
TAG-Framework: Einführung eines physiologisch fundierten Ansatzes, der Reasoning durch AUs und strukturierte Überwachung erzwingt.
TAG-310k Datensatz: Erstellung eines großen Datensatzes (310.000+ Samples) mit AU-verankerten Reasoning-Spuren, der für SFT und RL genutzt wird.
Nachweis der Wirksamkeit: Systematische Validierung, dass AU-Grounding sowohl die Genauigkeit als auch die visuelle Treue (Visual Faithfulness) verbessert.

4. Ergebnisse

Die Evaluation erfolgte auf drei Benchmarks: RAF-DB, FERPlus und AffectNet.

Leistungsvergleich:
- TAG (7B Parameter) übertrifft sowohl starke Open-Source- als auch Closed-Source-VLMs (wie GPT-5, Gemini 2.5 Pro) signifikant.
- Im SFT-only-Modus (ein einheitliches Modell für alle Datensätze) erreicht TAG eine durchschnittliche Genauigkeit von 74,34 %, was deutlich über den Zero-Shot-Ergebnissen größerer Modelle liegt.
- Im RL-Modus (datensatzspezifisches Tuning) erreicht TAG State-of-the-Art (SOTA) Ergebnisse:
  - RAF-DB: 92,80 %
  - FERPlus: 91,50 %
  - AffectNet: 67,03 %
  - Durchschnitt: 83,78 % (besser als spezialisierte FER-Modelle wie POSTER oder ExpLLM).
Ablationsstudien:
- Reinforcement Learning ohne AU-Reward verbessert zwar die Genauigkeit, verschlechtert aber die visuelle Verankerung (IoU sinkt).
- Die Kombination aus SFT und AU-bewusstem RL führt zu einer gleichzeitigen Steigerung von Genauigkeit und IoU (von 46,73 auf 60,24 auf RAF-DB).
Qualitative Analyse: Das Modell lernt, Regionen vorherzusagen, die stark mit externen AU-Detektoren übereinstimmen, und kann auch bei Fehlern des Detektors plausible, anatomisch korrekte Regionen identifizieren.

5. Bedeutung und Ausblick

Vertrauenswürdigkeit: TAG wandelt FER von einer reinen Klassifizierungsaufgabe in einen evidenzbasierten, überprüfbaren Reasoning-Prozess um. Dies ist entscheidend für Hochrisiko-Anwendungen (z. B. psychologische Bewertung, klinische Diagnose).
Reduktion von Halluzinationen: Durch die explizite Kopplung an physiologische Einheiten (AUs) werden Halluzinationen und „Shortcut"-Reasoning effektiv unterdrückt.
Allgemeine Anwendbarkeit: Der Ansatz bietet ein Paradigma für vertrauenswürdige multimodale Reasoning-Aufgaben in der affektiven Informatik und darüber hinaus, indem er strukturierte, physiologisch sinnvolle Zwischenrepräsentationen nutzt.

Zusammenfassend demonstriert TAG, dass die Integration von domänenspezifischem, physiologischem Wissen (AUs) in das Trainingsziel von VLMs notwendig ist, um robuste, interpretierbare und verlässliche Gesichtsausdruckserkennung zu erreichen.