TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die moet oplossen wat iemand voelt door alleen naar hun gezicht te kijken. Vaak doen computers dit als een "zwarte doos": ze kijken naar het hele gezicht en zeggen direct: "Dat is verdriet!" Maar ze kunnen niet uitleggen waarom. Ze geven geen bewijs, en soms maken ze zelfs fouten omdat ze op de verkeerde plekken kijken.

Deze paper introduceert een slimme nieuwe methode genaamd TAG (Thinking with Action Unit Grounding). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Verhaaltjesverteller"

Stel je voor dat een computer een detective is die graag een goed verhaal vertelt. Als je hem vraagt wat iemand voelt, zegt hij: "Hij ziet er verdrietig uit, want hij heeft een zware blik." Dat klinkt logisch, maar de computer kijkt misschien eigenlijk niet eens naar de ogen. Hij verzon het verhaal gewoon omdat hij denkt dat dat het juiste antwoord is. In de echte wereld is dat gevaarlijk; je wilt een detective die echt bewijs heeft, niet iemand die alleen maar goed kan vertellen.

2. De Oplossing: De "Spier-Analist"

TAG is een detective die niet meer gissen, maar bewijzen verzamelt. In plaats van naar het hele gezicht te kijken en een gok te wagen, leert TAG om te kijken naar specifieke spiertrekjes (in de vakjargon "Action Units" of AUs genoemd).

De Analogie: Stel je voor dat je een auto repareert. Een slechte monteur zegt: "De auto maakt een rare geluid, het is vast de motor." Een goede monteur (TAG) zegt: "Ik hoor een gekraak bij de linkervoorwiel, ik zie dat de bout los zit (bewijs), en daarom denk ik dat het de remmen zijn."
TAG doet precies dit met gezichten. Hij zegt niet zomaar "verdriet", hij zegt: "Ik zie dat de binnenste wenkbrauwen omhoog gaan (bewijs 1) en de mondhoeken naar beneden trekken (bewijs 2), dus dit is verdriet."

3. Hoe leert de computer dit? (De Twee Stappen)

De auteurs hebben de computer opgeleid in twee fases, net zoals je een student zou opleiden:

Fase 1: De Leren (Supervised Fine-Tuning):
De computer krijgt duizenden voorbeelden van gezichten. Bij elk voorbeeld ziet hij niet alleen het antwoord, maar ook een "spoor" van welke spieren bewogen hebben. Hij leert een patroon: "Als ik dit spiertrekje zie, moet ik daarop wijzen en het daarna benoemen." Het is alsof je een leerling een boek geeft waarin elke stap van een redenering is opgeschreven.
Fase 2: De Straat (Reinforcement Learning):
Nu moet de computer oefenen. Als hij een antwoord geeft, wordt er gecontroleerd: "Heb je echt naar de juiste plek op het gezicht gewezen?"
- Als hij zegt "verdriet" en wijst naar de mond, maar de spierbeweging zit bij de wenkbrauwen, krijgt hij een straf.
- Als hij het juiste spiertrekje vindt en erop wijst, krijgt hij een beloning.
  Hierdoor leert de computer dat het niet genoeg is om het juiste antwoord te hebben; hij moet ook het juiste bewijs leveren.

4. Waarom is dit cool?

Geen "Hallucinaties": De computer kan niet meer verzinnen dat iemand een traan heeft als dat er niet is. Hij moet echt iets zien voordat hij het zegt.
Betrouwbaar: Omdat hij zijn antwoorden baseert op fysieke spierbewegingen (die voor iedereen hetzelfde zijn), werkt hij beter in verschillende situaties, niet alleen in de oefenboekjes.
Vertrouwen: Mensen kunnen de redenering van de computer controleren. Als de computer zegt "Ik zie dit spiertrekje", kun jij zelf op het scherm kijken en zeggen: "Ja, daar zit het ook!"

Samenvattend

TAG is als het verschil tussen een waarzegger die zegt "Ik voel dat je verdrietig bent" en een arts die zegt "Je gezichtspieren trekken naar beneden, wat betekent dat je verdrietig bent." Het maakt kunstmatige intelligentie niet alleen slimmer, maar ook eerlijker en begrijpelijker voor ons mensen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Gezichtsuitdrukkingherkenning (Facial Expression Recognition - FER) is een taak die vereist dat modellen redeneren over gelokaliseerde en betekenisvolle gezichtsklanken. Hoewel recente Vision-Language Models (VLMs) de mogelijkheid bieden om natuurlijke taalverklaringen te genereren naast voorspellingen, lijden deze modellen vaak aan een gebrek aan visuele gronding (grounding).

Hallucinaties: De redeneringen van algemene VLMs zijn vaak vloeiend en plausibel, maar staan niet in verband met de daadwerkelijke visuele bewijzen in de afbeelding. Ze gedragen zich meer als "verhalenvertellers" dan als clinici.
Gebrek aan betrouwbaarheid: Omdat de redeneringen niet verifieerbaar zijn, zijn ze vatbaar voor hallucinaties en "shortcut reasoning" (afhankelijkheid van dataset-bias in plaats van echte spieractivatie).
Robuustheid: Dit gebrek aan gronding leidt tot slechte prestaties en broosheid wanneer modellen worden geëvalueerd over verschillende datasets.

Methodologie: TAG (Thinking with Action Unit Grounding)

De auteurs stellen TAG voor, een vision-language framework dat multimodaal redeneren expliciet beperkt tot fysiologisch betekenisvolle Actie-eenheden (Action Units - AUs), zoals gedefinieerd in het Facial Action Coding System (FACS). AUs corresponderen met gelokaliseerde spieractivaties en bieden een gestructureerde tussenlaag tussen ruwe pixels en semantische emotielabels.

Het framework bestaat uit een tweestaps trainingsproces:

Supervised Fine-Tuning (SFT):
- Het model wordt getraind op een groot dataset van TAG-310k (310.000 voorbeelden) met gestructureerde redeneersporen.
- Deze sporen volgen een vast formaat: een globale analyse, gevolgd door lokale verificaties waarbij het model expliciet bounding boxes (<bbox>) genereert die corresponderen met geactiveerde AUs.
- Het model leert om tussenstappen te "verankeren" (grounden) in AU-gerelateerde gezichtsregio's.
Reinforcement Learning (RL) met AU-bewuste Beloning:
- Na de SFT-fase wordt het model verfijnd met GRPO (Group Relative Policy Optimization).
- De beloningsfunctie ( $R$ $R$ ) bestaat uit drie componenten:
  - Antwoord-beloning ( $R_{ans}$ ): Correctheid van het eindlabel.
  - Formaat-beloning ( $R_{fmt}$ ): Correctheid van de outputstructuur.
  - AU-Grounding Beloning ( $R_{AU}$ ): Dit is de kerninnovatie. Het meet de Intersection over Union (IoU) tussen de door het model voorspelde bounding boxes en de regio's die worden gedetecteerd door een externe, gespecialiseerde AU-detector (zoals GraphAU).
- Dit zorgt ervoor dat het model niet alleen het juiste antwoord leert, maar ook dat de visuele bewijzen die het aanvoert, fysiologisch correct en verifieerbaar zijn.

Belangrijkste Bijdragen

Identificatie van een kritieke beperking: De auteurs tonen aan dat bestaande VLM-benaderingen voor FER lijden aan "ongroundede" redenering, wat leidt tot hallucinaties en lage robuustheid.
Het TAG-framework: Een nieuw paradigma dat redenering dwingt om gefundeerd te zijn op fysiologische AUs via gestructureerde supervisie en AU-bewuste versterkingsleer.
TAG-310k Dataset: Een groot scala aan data met AU-gegronde redeneersporen, gegenereerd op bestaande FER-benchmarks (RAF-DB, FERPlus, AffectNet) zonder extra handmatige annotatie, gebruikmakend van state-of-the-art AU-detectoren.
Uitgebreide Validatie: Systematische experimenten die aantonen dat AU-gronding zowel de nauwkeurigheid als de visuele trouw verbetert.

Resultaten

Het model is geëvalueerd op drie populaire benchmarks: RAF-DB, FERPlus en AffectNet.

Prestaties: TAG (gebaseerd op een 7B-parameter model) overtreft zowel sterke open-source als gesloten-source VLM-baselines (zoals GPT-5, Gemini 2.5 Pro, en InternVL3-38B) aanzienlijk.
- Op RAF-DB bereikt TAG 92,80% nauwkeurigheid (tegenover 79,95% voor InternVL3-38B).
- Op FERPlus bereikt het 91,50% (tegenover 69,41%).
- Op AffectNet bereikt het 67,03%.
Visuele Trouw (Faithfulness): In tegenstelling tot andere methoden die vaak hallucineren, toont TAG een hoge AU-IoU (60,24 op RAF-DB), wat betekent dat de door het model aangegeven gezichtsregio's sterk overeenkomen met de werkelijke spieractivaties.
Ablatie-studies:
- Zonder de AU-IoU beloning (alleen RL voor het juiste antwoord) daalt de visuele gronding, wat aantoont dat standaard RL de neiging heeft om visuele trouw ten koste van nauwkeurigheid te optimaliseren.
- De combinatie van SFT en AU-bewuste RL is essentieel voor zowel hoge nauwkeurigheid als betrouwbare redenering.

Betekenis en Impact

Vertrouwen en Interpretatieerbaarheid: TAG transformeert FER van een "black box" classificatie naar een bewijsgedreven, verifieerbaar redeneerproces. Dit is cruciaal voor toepassingen in de gezondheidszorg, mens-computerinteractie en beveiliging.
Bestrijding van Hallucinaties: Door redenering te koppelen aan fysiologische eenheden (AUs) die onafhankelijk kunnen worden geverifieerd, wordt het risico op het verzinnen van niet-bestaande gezichtsklanken aanzienlijk verminderd.
Algemene Toepasbaarheid: De aanpak biedt een blauwdruk voor het grondig verankeren van multimodaal redeneren in andere fijnkorrelige visuele taken, waarbij gestructureerde, semantische tussenrepresentaties (zoals AUs) essentieel zijn voor betrouwbare AI.

Kortom, TAG bewijst dat het dwingen van een model om te "denken" met fysiologisch betekenisvolle bewijzen (AUs) leidt tot systemen die niet alleen slimmer zijn, maar ook eerlijker en betrouwbaarder in hun uitleg.

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

1. Het Probleem: De "Verhaaltjesverteller"

2. De Oplossing: De "Spier-Analist"

3. Hoe leert de computer dit? (De Twee Stappen)

4. Waarom is dit cool?

Samenvattend

Probleemstelling

Methodologie: TAG (Thinking with Action Unit Grounding)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems