Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe Team LEYA de twijfel van mensen "hoort" en "ziet"

Stel je voor dat je met iemand aan het praten bent. Ze zeggen: "Ja, ik wil graag beginnen met sporten," maar hun stem trilt een beetje, ze kijken onzeker en hun lichaamstaal zegt: "Ik weet het niet echt." Ze zijn ambivalent of heseitant. Ze zijn in tweestrijd.

Het herkennen van deze subtiele twijfel in video's is een enorm moeilijke taak voor computers. Mensen doen dit intuïtief, maar voor een computer is het alsof je probeert een raadsel op te lossen terwijl je een doos vol losse puzzelstukjes hebt.

Team LEYA uit Rusland heeft een slimme oplossing bedacht voor een grote wedstrijd (de 10e ABAW-competitie) om dit probleem op te lossen. Hier is hoe ze het deden, vertaald in alledaags taal:

1. Vier verschillende "sensors" (De vier zintuigen)

In plaats van alleen naar het gezicht van iemand te kijken (zoals veel andere teams deden), liet Team LEYA hun computer kijken naar vier verschillende dingen tegelijk, alsof ze een team van vier detectives hebben:

De Scène-detective (De achtergrond): Deze kijkt niet naar het gezicht, maar naar wat er om de persoon heen gebeurt. Beweegt de camera? Verandert de omgeving? Soms zegt de sfeer van de kamer meer over onzekerheid dan het gezicht zelf.
De Gezichtsdetective (De emoties): Deze kijkt specifiek naar de micro-expressies op het gezicht. Is er een frons? Een snelle glimlach die niet klopt?
De Oordetective (De stem): Deze luistert naar de toonhoogte, het tempo en de trilling in de stem. Zegt de stem "ja", maar klinkt het als "nee"?
De Taaldetective (De woorden): Deze leest precies wat er gezegd wordt. Welke woorden worden gebruikt? Is de zin vol met twijfelwoorden?

2. Het "Vertaalbureau" (Unimodale modellen)

Elke detective werkt eerst apart. Ze nemen hun eigen stukje informatie en vertalen het naar een simpele, samenvattende code.

De gezichtsdetectie pakt duizenden beelden en maakt er één statistisch gemiddelde van (bijvoorbeeld: "gemiddeld zag hij er 60% onzeker uit").
De oordetectie luistert naar de hele clip en maakt er één "gevoelscode" van.
De taaldetectie pakt de tekst en maakt er een samenvatting van.

3. De "Super-Detective" (Multimodale Fusie)

Nu komen alle vier de detectives bij elkaar in een vergaderzaal. Dit is het slimste deel van hun systeem.

Stel je voor dat de Taaldetective zegt: "Hij zegt 'ja', dat is duidelijk!"
Maar de Gezichtsdetectie fluistert: "Hij kijkt echter naar de grond."
En de Oordetectie voegt toe: "En zijn stem trilt."

Een simpele computer zou misschien alleen naar de woorden kijken en denken: "Alles goed!". Maar Team LEYA's systeem is een Super-Detective die alle tegenstrijdigheden ziet. Het systeem is speciaal getraind om te begrijpen dat twijfel vaak ontstaat wanneer de woorden niet matchen met de stem of het gezicht.

Ze gebruiken een slimme techniek (genaamd "prototype-augmented fusion"). Je kunt dit vergelijken met een mestafdeling die niet alleen naar de huidige situatie kijkt, maar ook naar een "ideaal plaatje" van hoe twijfel eruit ziet. Als de combinatie van stem, gezicht en tekst lijkt op dat ideale plaatje van twijfel, dan slaat het alarm.

4. Het "Team van Vijf" (Ensemble)

Om zeker te zijn dat ze niet toevallig geluk hadden, lieten ze vijf van deze Super-Detectives tegelijk werken.
Stel je voor dat je een moeilijke wiskundetaak hebt. Als je het aan één persoon vraagt, kan die een fout maken. Maar als je het aan vijf slimme mensen vraagt en hun antwoorden gemiddeld, krijg je bijna altijd het juiste antwoord. Team LEYA deed precies dit: ze lieten vijf versies van hun model werken en namen het gemiddelde resultaat.

Wat was het resultaat?

Alleen kijken: Als je alleen naar de tekst kijkt, heb je ongeveer 70% kans om het goed te hebben.
Alleen kijken naar het gezicht: Dat werkt veel slechter (ongeveer 62%).
Samenwerken: Toen ze alle vier de detectives samenwerkten, steeg het succes naar 83% tijdens de test.
De finale: In de echte wedstrijd, waar de data nog onbekend was, wonnen ze met 71,43%.

De grote les

De belangrijkste ontdekking van Team LEYA is dit: Twijfel is een complex gevoel. Je kunt het niet vinden door alleen naar één ding te kijken. Je moet kijken naar wat mensen zeggen, hoe ze het zeggen, hoe ze eruitzien en wat er om hen heen gebeurt. Alleen door al deze signalen samen te voegen, kan een computer echt begrijpen of iemand twijfelt of niet.

Kortom: Ze hebben een computer gebouwd die niet alleen luistert, maar ook echt begrijpt wat er in het hoofd van de ander omgaat.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper richt zich op de uitdaging van het herkennen van ambivalentie en aarzeling (Ambivalence/Hesitancy, A/H) in onbeperkte video's. Dit is een complex probleem binnen affectief computing omdat deze gedragsstaat subtiel, multimodaal en sterk contextafhankelijk is. In tegenstelling tot basisemoties (zoals blijdschap of verrassing) manifesteert A/H zich vaak door inconsistenties tussen verschillende modaliteiten (bijvoorbeeld tussen wat iemand zegt, hoe het klinkt en hoe het eruitziet). De taak is een binaire classificatie op videoniveau: voorspellen of een video A/H bevat of niet. Dit is cruciaal voor toepassingen zoals digitale gezondheidsinterventies, waar het herkennen van twijfel of weerstand essentieel is voor gedragsverandering.

Methodologie

Team LEYA (van het St. Petersburg Federal Research Center en HSE University) heeft een multimodale aanpak ontwikkeld die vier complementaire modaliteiten integreert: scène, gezicht, audio en tekst. De pijplijn bestaat uit drie hoofdfasen:

1. Unimodale Modellen (Feature Extractie)

Voor elke modaliteit wordt een gespecialiseerd model getraind om compacte representaties te leren:

Scène (VideoMAE): Dynamiek van de gehele video wordt geanalyseerd met een Video Masked Autoencoder (VideoMAE), vooraf getraind op Kinetics-400. De video wordt opgesplitst in spatiotemporele 'tubelets' en verwerkt via een Transformer-encoder. Globale gemiddelde pooling levert een compacte scène-embedding op.
Gezicht (EmotionEfficientNetB0): Gezichten worden gedetecteerd (YOLO) en verwerkt door een EfficientNetB0 model, fijngefineerd op het AffectNet+-corpus. Per frame worden emotionele embeddings gegenereerd. Deze worden geaggregeerd via statistische pooling (gemiddelde $\mu$ en standaardafwijking $\sigma$ ) en vervolgens verwerkt door een MLP.
Audio (EmotionWav2Vec2.0 + Mamba): Audio wordt verwerkt met een Wav2Vec2.0 model (fijngefineerd op MSP-Podcast) voor emotionele kenmerken. De tijdsafhankelijkheden in het spraaksignaal worden gemodelleerd met een Mamba-encoder (een state-space model), gevolgd door gemiddelde pooling.
Tekst (EmotionDistilRoBERTa): Transcripties van de audio worden verwerkt met transformer-based taalmodellen. De beste configuratie gebruikt EmotionDistilRoBERTa, direct fijngefineerd voor A/H-herkenning, met een MLP-classificatiekop.

2. Multimodale Fusie

De embeddings van de vier modaliteiten worden geprojecteerd naar een gedeelde latente ruimte en samengevoegd via een Transformer-based fusiemodule:

De modality-tokens worden verwerkt door een stack van Transformer-encoderlagen.
Een modality-mask zorgt ervoor dat ontbrekende modaliteiten correct worden genegeerd.
Prototype-augmentatie: Een innovatief onderdeel van de aanpak is het gebruik van leerbare, klas-specifieke prototypes. Tijdens het training wordt een extra verliesfunctie ( $L_{proto}$ ) toegevoegd die de gesmeerde representatie vergelijkt met deze prototypes. Dit helpt bij het modelleren van onzekerheid en inconsistenties tussen modaliteiten.
Het totale trainingsdoel is een combinatie van het hoofdclassificatieverlies, het prototype-verlies en een diversiteitsregularisatie.

3. Ensemble Strategie

Voor de finale voorspelling wordt een ensemble van vijf modellen gebruikt, elk getraind met een verschillende random seed. De uiteindelijke voorspelling is het gemiddelde van de kansen van deze vijf modellen, wat de robuustheid verhoogt.

Belangrijkste Resultaten

De experimenten zijn uitgevoerd op het BAH-corpus (1.427 video's van 300 deelnemers). De prestaties worden gemeten met de Macro F1-score (MF1).

Unimodale Baselines: Tekst bleek de sterkste enkele modaliteit. Het fijngefineerde EmotionDistilRoBERTa model bereikte een gemiddelde MF1 van 70,02%. Scène- en gezichtsmodellen presteerden aanzienlijk lager (rond 62-63%).
Multimodale Fusie: Fusie leverde duidelijke winst op.
- De beste enkele fusiemodel (prototype-augmenteerd) bereikte een gemiddelde MF1 van 83,25%.
- De beste prestatie op de finale testset (private split) werd behaald door het ensemble van vijf prototype-augmenteerde modellen met een MF1 van 71,43%.
Ablatie-studie:
- De combinatie van scène en tekst bleek de sterkste tweetalige combinatie (80,39% gemiddeld).
- Het toevoegen van alle vier modaliteiten leverde de beste algehele oplossing op.
- Ensembling was cruciaal voor generalisatie op de onbekende testset, hoewel het prototype-augmenteerde model op zichzelf de hoogste gemiddelde score had.

Bijdragen en Significantie

Integratie van Scène-informatie: In tegenstelling tot eerdere werken die zich vooral richtten op gezicht, audio en tekst, introduceert deze aanpak expliciet scène-dynamica als een waardevolle modaliteit voor het detecteren van A/H.
Prototype-Augmentatie: Het gebruik van leerbare prototypes in de fusie-architectuur biedt een effectieve manier om om te gaan met de inherente inconsistenties en onzekerheid die kenmerkend zijn voor ambivalentie.
State-of-the-Art Prestaties: De methode overtreft eerdere baselines en toont aan dat een zorgvuldig ontworpen multimodale fusie, gecombineerd met robuuste ensemble-strategieën, essentieel is voor het oplossen van subtiele gedragsproblemen in onbeperkte video's.
Openbaarheid: De broncode is publiek beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling in dit domein stimuleert.

Concluderend demonstreert Team LEYA dat het combineren van gespecialiseerde unimodale encoders met een geavanceerde Transformer-fusie en prototype-regularisatie een krachtige strategie is voor het herkennen van complexe psychologische toestanden zoals ambivalentie.