AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je probeert te lezen wat iemand denkt, niet door naar hun grote, duidelijke lach of boze gezicht te kijken, maar door te zoeken naar een flitsende, bijna onzichtbare spierbeweging die slechts een fractie van een seconde duurt. Dit noemen we een "micro-expressie".

Het probleem is dat deze bewegingen zo klein en snel zijn dat ze vaak verdwalen in ruis: een verandering in het licht, een andere neusvorm, of een kleine hoofdbeweging. Bestaande computersystemen (AI) zijn hier vaak slecht in; ze kijken naar het hele gezicht en vergeten de subtiele details, of ze raken in de war door de achtergrond.

De auteurs van dit papier, AULLM++, hebben een slimme oplossing bedacht. Ze gebruiken een Grote Taalmodel (LLM) – hetzelfde type technologie die achter chatbots zit – maar dan op een heel nieuwe manier. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Een naald in een hooiberg

Stel je voor dat je een naald (de micro-expressie) moet vinden in een enorme hooiberg (het gezicht met alle ruis).

Oude methoden: Kijken naar de hele hooiberg en hopen dat ze de naald zien. Ze vergeten vaak dat de naald heel dun en kwetsbaar is.
De nieuwe aanpak: Ze gebruiken een "detective" (het taalmodel) die niet alleen kijkt, maar ook redeneert.

2. De Drie Stappen van de "Detective"

De AULLM++ werkt in drie fasen, alsof je een detective een dossier geeft:

Stap 1: De Scherpe Camera (Visuele Bewijslast)

Eerst moet de computer de naald vinden in de hooiberg.

De truc: Ze gebruiken een speciale lens (de MGE-EFP). Deze lens kijkt naar twee dingen tegelijk:
1. De grote lijnen (is het een boos gezicht of een blij gezicht?).
2. De fijne details (trilt de huid net iets? Verandert de rand van de lip?).
Analogie: Stel je voor dat je een foto van een storm maakt. Je ziet de grote wolken (groot beeld), maar je ziet ook hoe de takken van een boom trillen (fijn detail). De oude systemen zagen alleen de wolken. Dit nieuwe systeem ziet beide en maakt er één compact rapportje van: een "Visueel Token".

Stap 2: De Anatomische Regelgids (Structuur)

Nu heeft de detective een rapportje, maar hij weet nog niet hoe spieren samenwerken.

De truc: Menselijke spieren werken niet zomaar. Als je je wenkbrauw optrekt, gebeurt er vaak iets anders in je mond. Dit is vastgelegd in een systeem genaamd FACS (een soort anatomische wetboek).
De aanpak: De AI gebruikt een "anatomische kaart" (de R-AUGNN). Ze zegt: "Oké, we zien een trilling bij de wenkbrauw. Volgens de anatomische regels, als die spier trilt, moet die andere spier ook reageren."
Analogie: Het is alsof je een detective een receptboek geeft. Als je ziet dat iemand suiker eet (visueel bewijs), zegt het receptboek: "Dan moet er ook melk bij zijn." De AI gebruikt dit om te voorspellen wat er zou moeten gebeuren, niet alleen wat er zichtbaar is. Dit noemen ze een "Instructie Token".

Stap 3: De Slimme Redenering (Het Taalmodel)

Nu komt de echte kracht.

De truc: Ze geven het visuele rapportje én het anatomische receptboek aan een super-slimme taalmodel (de LLM).
Hoe het werkt: In plaats van de AI te laten "gokken" op basis van patronen, laten we de AI redeneren. De prompt (de vraag) is: "Hier is het visuele bewijs (de trilling) en hier is de anatomische regel (de spieren werken samen). Wat is de meest logische conclusie?"
Analogie: Het is het verschil tussen een kind dat een woord raadt omdat het op een ander woord lijkt, en een volwassene die de context begrijpt en de betekenis afleidt.

3. De "Wat als?" Test (Om fouten te voorkomen)

Een groot probleem bij AI is dat ze leren op "trucs" (bijvoorbeeld: "In deze dataset is het altijd donker als iemand boos is").

De oplossing: Ze gebruiken een techniek genaamd Counterfactual Consistency.
Analogie: Tijdens het trainen zegt de computer tegen zichzelf: "Oké, stel dat ik dit stukje van het bewijs zou veranderen (bijvoorbeeld: stel dat de spier niet trilt), zou de conclusie dan nog steeds 'boos' zijn?"
Als de AI zegt "Ja", dan heeft hij een fout gemaakt (hij kijkt naar de verkeerde dingen). Als hij zegt "Nee", dan begrijpt hij de echte oorzaak. Dit zorgt ervoor dat de AI niet afhankelijk is van de specifieke camera of het licht, maar echt begrijpt wat er gebeurt.

Waarom is dit zo belangrijk?

Betrouwbaarheid: De AI is niet meer afhankelijk van de camera of het licht, maar kijkt naar de echte spierbewegingen.
Algemene Toepasbaarheid: Het werkt goed op verschillende mensen (van verschillende culturen) en in verschillende situaties.
Resultaat: De tests tonen aan dat dit systeem veel beter is dan eerdere methoden, zelfs bij de moeilijkste, meest onzichtbare gezichtsuitdrukkingen.

Kortom: AULLM++ is geen simpele camera die kijkt; het is een detective met een anatomisch handboek en een logisch brein, die de subtiele signalen van het menselijk gezicht decodeert door te redeneren in plaats van te gokken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Micro-expressieherkenning, specifiek de detectie van Action Units (AU's) volgens het Facial Action Coding System (FACS), staat voor drie fundamentele uitdagingen:

Extreem lage signaal-ruisverhouding (SNR): Micro-expressies zijn onvrijwillig, zeer kortstondig en hebben een lage intensiteit. De visuele bewijzen zijn vaak slechts vluchtige lokale textuurveranderingen of randverstoringen rondom spieren. Bestaande methoden zijn te afhankelijk van visuele informatie met lage dichtheid, waardoor discriminatieve bewijzen gemakkelijk worden overschaduwd door achtergrondruis (zoals identiteitsvariaties, verlichting en hoofd-bewegingen).
Gruwe-granulaire verwerking: Traditionele methoden gebruiken vaak grove feature-pooling of 3D-convoluties die de cruciale, subtiele hoge-frequentie details "weggladstrijken". Dit staat haaks op de behoefte aan fijne-granulaire representaties.
Verwaarlozing van AU-correlaties: Veel bestaande modellen behandelen AU-detectie als onafhankelijke classificatietaken. Dit negeert de inherente fysiologische synergie en wederzijdse inhibitie tussen spiergroepen, wat de prestaties beperkt bij complexe expressiecombinaties.

Methodologie: AULLM++

Het paper introduceert AULLM++, een raamwerk dat de taak van AU-detectie transformeert van puur visuele feature-extractie naar een redeneringsgebaseerd proces dat visuele bewijzen combineert met structurele priors via een Large Language Model (LLM). De architectuur bestaat uit drie fasen:

1. Visuele Bewijsconstructie (MGE-EFP)

Om het lage SNR-probleem aan te pakken, wordt een Multi-Granularity Evidence-Enhanced Fusion Projector (MGE-EFP) ontworpen.

Functie: Deze module ontkoppelt en fuseert mid-level features (die lokale, hoge-frequentie textuurveranderingen vertegenwoordigen) met high-level semantische features (globale context).
Techniek: Een differentieerbare Laplace-versterker wordt toegepast om de hoge-frequentie details van spierbewegingen te versterken. Vervolgens wordt een attention-gated mechanisme gebruikt om deze details adaptief te fuseren met globale semantiek.
Output: De gefuseerde informatie wordt gecomprimeerd tot een compacte Content Token ( $T_v$ ), die als visueel bewijs dient voor het LLM.

2. Structurele Modellering (R-AUGNN)

Om de complexe relaties tussen AU's te modelleren, wordt een Relation-Aware Action Unit Graph Neural Network (R-AUGNN) geïntroduceerd.

Functie: Dit netwerk injecteert anatomische priors uit FACS als een spaarse topologie en leert interactiekrachten op basis van de huidige input.
Techniek: Het combineert een statische prior-adjacentiematrix (gebaseerd op FACS-regels) met een dynamische, instance-afhankelijke attentie-mechanisme. Hierdoor worden de synergetische en wederzijds remmende relaties tussen AU's expliciet gemodelleerd.
Output: Het genereert een Instruction Token ( $\tau_{au}$ ) die het LLM leidt met structurele instructies over welke AU's waarschijnlijk samen voorkomen.

3. Redenering en Regularisatie (LLM & CCR)

LLM Redenering: De Content Token en Instruction Token worden samengevoegd tot een gestructureerde tekst-prompt en ingevoerd in een LLM (gebaseerd op DeepSeek-R1). Het LLM voert logische deductie uit om de AU-predicties te genereren, in plaats van directe regressie.
Counterfactual Consistency Regularization (CCR): Om overfitting op dataset-specifieke biases (zoals verlichting of camera) te voorkomen, wordt tijdens het trainen CCR toegepast. Hierbij worden gerichte perturbaties (counterfactuele interventies) aangebracht op de structurele instructies. Het model wordt gedwongen om consistente antwoorden te geven voor niet-geïnterveneerde AU's, waardoor het echte causale verbanden leert in plaats van statistische shortcuts.

Belangrijkste Bijdragen

Redeneringsgericht Raamwerk: Een verschuiving van puur visuele feature-pooling naar een logische deductieproces dat visuele bewijzen combineert met structurele anatomische priors via een LLM.
MGE-EFP Module: Een innovatieve projector die hoge-frequentie micro-texturen effectief versterkt en fuseert met globale semantiek, waardoor subtiele signalen niet verloren gaan in ruis.
R-AUGNN: Een graf-neuraal netwerk dat FACS-anatomische regels injecteert als priors en adaptief leert om de interacties tussen AU's te modelleren, wat essentieel is voor complexe expressies.
CCR Regularisatie: Een trainingsstrategie die causale consistentie afdwingt door counterfactuele interventies, wat de generalisatie over domeinen aanzienlijk verbetert zonder extra inferentie- overhead.

Resultaten

AULLM++ is geëvalueerd op drie standaard benchmarks: CASME II, SAMM en het uitdagende 4DME-Micro dataset.

State-of-the-Art Prestaties: Het model behaalde de beste resultaten in alle experimenten. Op CASME II werd een Macro-F1-score van 82.4% bereikt (tegenover 78.4% voor de vorige beste methode), en op SAMM 62.6%.
Cross-Domain Generalisatie: In "Leave-One-Subject-Out" (LOSO) en cross-dataset evaluaties (bijv. trainen op CASME II, testen op SAMM) toonde AULLM++ superieure robuustheid. Het presteerde aanzienlijk beter dan traditionele CNN's en motion-magnification methoden, wat wijst op een beter vermogen om domein-specifieke biases te negeren.
Ablatie Studies: Verwijdering van de R-AUGNN of de CCR leidde tot significante prestatiedalingen, wat de noodzaak bevestigt van zowel structurele priors als causale regularisatie.
Visualisatie: t-SNE visualisaties tonen aan dat AULLM++ domein-grenzen effectief overbrugt en features in een meer verenigde, fysiologisch betekenisvolle ruimte projecteert.

Betekenis en Impact

Dit werk markeert een paradigmaverschuiving in micro-expressieherkenning. Door Large Language Models te gebruiken als een redeneermotor, in plaats van alleen als een classificator, slaagt AULLM++ erin om de beperkingen van data-driven benaderingen bij zeer zwakke signalen te overwinnen.

Het introduceert een nieuwe standaard voor het integreren van fysiologische kennis (FACS) in diepe leermodellen.
Het biedt een oplossing voor het domein-generalisatieprobleem, een van de grootste obstakels in affectieve computing, door causale redenering te forceren in plaats van oppervlakkige patroonherkenning.
De code en het model zijn beschikbaar gesteld, wat verdere onderzoek naar interpreteerbare en robuuste affectieve AI-systemen zal stimuleren.