Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert te raden wat iemand voelt, alleen op basis van een filmpje. Soms is het gezicht van die persoon goed te zien, maar soms zit er een hand voor de camera, loopt de persoon weg, of is het gewoon te donker. En soms schreeuwt de persoon van blijdschap, maar is het geluid niet te horen.

Dit is precies het probleem waar de onderzoekers van de 10e ABAW-uitdaging mee worstelden: hoe maak je een computer slim genoeg om emoties te herkennen in de echte, chaotische wereld, waar dingen vaak misgaan?

Hier is hun oplossing, vertaald in een simpel verhaal:

1. De Twee Detectives (Video en Geluid)

Stel je voor dat je twee detectives hebt die samenwerken:

Detective Video: Kijkt naar het gezicht. Hij is heel goed in het zien van een glimlach of een frons.
Detective Audio: Luistert naar de stem. Hij hoort de trilling van angst of de toon van blijdschap.

In de meeste oude systemen waren deze detectives afhankelijk van elkaar. Als Detective Video verdween (bijvoorbeeld omdat iemand uit beeld liep), gaf Detective Audio ook op. Dat is niet slim.

De oplossing van dit team: Ze bouwden een slimme samenwerking. Ze gebruiken een speciaal "veiligheidsnet" (de Safe Cross-Attention).

Als het beeld wazig is of iemand wegloopt, zegt het systeem: "Oké, Detective Video, ga even rusten. Detective Audio, jij neemt het over!"
Het systeem kan dus prima doorgaan met raden alleen op basis van geluid, zelfs als er geen beeld is. Dit noemen ze Modality Dropout: ze oefenen tijdens het leren met het bewust "weglaten" van beelden, zodat het systeem leert om niet afhankelijk te worden van één zintuig.

2. Het Grote Onbalans-probleem (De Emotie-Feest)

Stel je een groot feest voor waar 90% van de mensen neutraal staat te kijken, en slechts 10% lacht of huilt.
Als je een computer leert om dit te herkennen, zal hij denken: "Ah, iedereen staat neutraal, ik ga maar iedereen 'neutraal' noemen." Dan heeft hij het vaak goed (want de meeste mensen zijn neutraal), maar hij mist de echte, zeldzame emoties.

In de dataset die ze gebruikten (Aff-Wild2) was dit probleem enorm: er waren veel meer frames met "neutraal" dan met "boos" of "bang".

De oplossing: Ze gebruikten een trucje genaamd Focal Loss.
Stel je voor dat je een leraar bent. Normaal gesproken geef je een sterretje voor elke goede vraag. Maar als de leerlingen de makkelijke vragen (neutraal) al perfect kunnen, geef je die geen sterretjes meer. Je richt je alleen op de moeilijke vragen (de zeldzame emoties). Zo dwing je de computer om zich echt te concentreren op de moeilijke, zeldzame gevallen in plaats van de makkelijke.

3. De Glijdende Rol (Geen trillende resultaten)

Emoties zijn niet als een schakelaar die plotseling aan of uit gaat. Ze zijn meer als een glijdende rol: iemand wordt eerst een beetje boos, dan heel boos, en kalmeert weer af.
Oude systemen keken naar één frame per keer. Dat leek op een stroboscoop: flikker-flikker-flikker. Soms dachten ze "blij", dan "boos", dan weer "blij", terwijl de persoon gewoon aan het lachen was.

De oplossing: Ze gebruikten een glijdend venster met zachte stemming.
In plaats van naar één foto te kijken, kijken ze naar een stukje film (een rol van 64 beelden). Ze laten deze rol over elkaar heen glijden.

Ze kijken naar alle voorspellingen in dat stukje film.
In plaats van te zeggen "Het is 100% boos", zeggen ze: "Het is 70% boos en 30% neutraal."
Vervolgens middelen ze dit over de hele video. Dit zorgt voor een vloeiende, rustige lijn in plaats van een trillende, chaotische lijn. Het is alsof je een ruwe foto gladstrijkt tot een mooie film.

Het Resultaat

Door deze drie dingen te combineren (de twee detectives die elkaar kunnen vervangen, de leraar die zich richt op de moeilijke vragen, en de glijdende rol voor vloeiende resultaten), haalden ze een heel goed resultaat:

60,79% nauwkeurigheid.
Ze konden zelfs goed doen als het beeld wegviel, omdat ze op het geluid konden vertrouwen.

Kort samengevat:
Dit team heeft een slimme computer gemaakt die niet panikeert als de camera stuk gaat of als iemand zijn gezicht bedekt. Hij luistert naar de stem, focust op de zeldzame emoties in plaats van de saaie, en kijkt naar de hele film in plaats van naar losse foto's. Hierdoor is hij veel beter in het begrijpen van menselijke gevoelens in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Emotieherkenning in real-world omgevingen ("in-the-wild") wordt ernstig gehinderd door drie hoofduitdagingen:

Partiële occlusies en ontbrekende modaliteiten: In onbeperkte video's verdwijnen gezichten vaak uit beeld, worden ze geblokkeerd door objecten of veranderen de koptoestanden, waardoor visuele data tijdelijk ontbreekt.
Ernstige klasse-ongelijkheid (Class Imbalance): De gebruikte dataset (Aff-Wild2) heeft een lange staartverdeling (long-tail distribution), waarbij sommige emoties (zoals angst of walging) veel zeldzamer voorkomen dan andere (zoals blijdschap of neutraal). Dit leidt tot een bias in modellen die standaard cross-entropy loss gebruiken.
Ruizige en dynamische data: Verlichting, achtergronden en culturele verschillen maken het moeilijk om modellen te generaliseren. Bestaande multimodale methoden gaan er vaak ten onrechte van uit dat alle modaliteiten (audio en video) continu beschikbaar zijn, wat leidt tot prestatieverlies bij visuele storingen.

Methodologie

De auteurs stellen een robuust, end-to-end multimodaal raamwerk voor dat visuele en audio-kenmerken dynamisch fuseert. De architectuur bestaat uit de volgende kerncomponenten:

1. Kenmerkextractie en Pre-training

Visueel: Er wordt gebruikgemaakt van een BEiT-large architectuur. Het model wordt eerst gefinetuned op een groot, gemengd statisch dataset (Raf-DB, FERPlus, AffectNet) en vervolgens domain-adaptief gefinetuned op de videoframes van Aff-Wild2.
Audio: De audiostream wordt verwerkt met WavLM-large (vooraf getraind op een grote spraakcorpus) om acoustische prosodie en subtiele emotionele fluctuaties te vangen.
Alignering: Omdat video en audio verschillende samplefrequenties hebben, wordt de audio-uitvoer lineair geïnterpoleerd om temporair uitgelijnd te zijn met de videoframes.

2. Dubbelvertakkende Transformer met Veilige Cross-Attention
Het model gebruikt een dual-branch Transformer-architectuur:

Self-Attention: Elke modality (visueel en audio) verwerkt eerst zijn eigen contextuele kenmerken.
Cross-Attention: Er worden blokken toegevoegd voor interactie tussen modaliteiten (visueel naar audio en vice versa).
Learnable Gating: Een mechanisme dat dynamisch de bijdrage van de unimodale context versus de gefuseerde cross-modale kenmerken reguleert.
Veilige Cross-Attention (Safe Cross-Attention): Dit is een cruciale innovatie voor het hanteren van ontbrekende data. Als het systeem detecteert dat visuele kenmerken volledig ontbreken binnen een venster:
- Wordt de eerste token van de sequentie tijdelijk "ontmaskerd" om de forward-pass van de attention-mechanisme te laten voltooien.
- Wordt de output van de attention-manipulatie handmatig op nul gezet.
- Dankzij residual connections degradeert het netwerk naadloos naar het vertrouwen op de audio-branch alleen, zonder dat de softmax-functie ongeldige waarden genereert.

3. Modality Dropout
Tijdens het trainingstraject wordt een modality dropout-strategie toegepast waarbij visuele input in een batch met een bepaalde waarschijnlijkheid ( $p$ ) willekeurig wordt gemaskeerd. Dit voorkomt dat het model te afhankelijk wordt van visuele data en dwingt het om robuust te blijven bij signaalverlies.

4. Optimalisatie en Inferentie

Focal Loss: Om de lange staartverdeling van de dataset aan te pakken, wordt Focal Loss gebruikt in plaats van standaard cross-entropy. Dit verlaagt het gewicht van makkelijk te classificeren (meerderheids)klassen en dwingt het model zich te concentreren op moeilijke, zeldzame emoties.
Sliding Window & Soft Voting: Voor inferentie op lange video's wordt een overlappende sliding-window strategie gebruikt (venstergrootte $W=64$ , stapgrootte $S=8$ ). In plaats van harde stemmen, worden de voorspelde logits over alle vensters die een frame overlappen, gemiddeld (soft voting).
Post-processing: Een median filter (kerngrootte $k=11$ ) wordt toegepast om tijdelijke classificatie-jitter te verminderen en de overgangen tussen emoties glad te strijken.

Belangrijkste Bijdragen

Robuustheid bij ontbrekende modaliteiten: De introductie van "Safe Cross-Attention" en modality dropout stelt het systeem in staat om correct te functioneren zelfs wanneer visuele data volledig ontbreekt, door automatisch over te schakelen op audio.
Omgaan met onbalans: De combinatie van Focal Loss en dynamische gewichtsschaling voor klassen verbetert de prestaties op zeldzame emotie-klassen aanzienlijk.
Temporale gladheid: De sliding-window soft-voting strategie reduceert frame-voor-frame jitter en vangt dynamische emotionele overgangen effectiever dan statische frame-classificatie.
Empirische inzichten: Het paper toont aan dat hoewel visuele data dominant is, audio essentieel is als compensatie. Echter, een te zwaar model (te veel parameters) leidt tot overfitting op de ruis van de Aff-Wild2 dataset; een middelgroot netwerk ( $d=256$ , 3 lagen) werkt het beste.

Resultaten

Het model is geëvalueerd op de Aff-Wild2 validatieset voor de Expression Recognition Challenge:

Nauwkeurigheid (Accuracy): 60,79%
F1-score: 0,5029

Ablatiestudies tonen aan dat:

De beste prestaties worden behaald met een modality dropout kans van $p=0,10$ .
Het verhogen van de dropout kans (naar 0,15 of 0,20) de prestaties verslechtert door te veel visuele informatie te verliezen.
Het vergroten van de netwerkgrootte (diepte of breedte) boven een bepaald punt leidt tot overfitting en lagere scores.

Significantie

Deze oplossing is significant voor het veld van affective computing omdat het een praktische aanpak biedt voor de realiteit van "in-the-wild" data, waar perfectie en continuïteit van data niet gegarandeerd zijn. Door de afhankelijkheid van visuele data te verminderen via een veilige fallback-mechanisme op audio, en door specifiek in te spelen op de statistische onbalans van de dataset, biedt dit raamwerk een nieuwe standaard voor robuuste emotieherkenning. Het benadrukt dat voor real-world toepassingen niet alleen de nauwkeurigheid op "schone" data telt, maar vooral de fault-tolerantie bij storingen en de balans tussen modaliteiten.

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

1. De Twee Detectives (Video en Geluid)

2. Het Grote Onbalans-probleem (De Emotie-Feest)

3. De Glijdende Rol (Geen trillende resultaten)

Het Resultaat

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes