Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

Each language version is independently generated for its own context, not a direct translation.

Team RAS en de 10e Emotie-uitdaging: Hoe computers gevoelens "lezen" in het echte leven

Stel je voor dat je in een drukke, chaotische markt staat. Mensen lachen, huilen, schreeuwen en fluisteren. Iedereen beweegt anders, het licht wisselt van fel naar schemerig, en soms staat er iemand voor je die je gezicht verbergt. Voor een computer is het een enorme uitdaging om in zo'n situatie te begrijpen wat iemand voelt. Dit noemen wetenschappers "emotieherkenning in het wild".

Team RAS uit Rusland heeft een slimme oplossing bedacht voor de 10e editie van de grote ABAW-uitdaging (een soort Olympiade voor AI). Hun doel? Een computer leren om twee specifieke gevoelens te meten:

Valentie: Is het gevoel positief (lekker) of negatief (onprettig)?
Arousal: Is het gevoel rustig of juist heel intens/energiek?

Hier is hoe hun systeem werkt, vertaald in alledaagse termen:

1. De Drie Sinnen van de Computer

In plaats van te vertrouwen op één ding, heeft Team RAS hun computer drie "zintuigen" gegeven, net als een mens die een situatie observeert:

Het Oog (Gezicht): De computer kijkt naar het gezicht. Maar niet zomaar. Het gebruikt een slimme "oogopslag" (GRADA) die elke frame van een video analyseert. Het is alsof de computer een foto van elk moment maakt en zich afvraagt: "Is die mondhoeken omhoog of omlaag?"
De Verstandige Observer (Gedrag): Dit is het nieuwe, spannende deel. De computer gebruikt een enorme, slimme taal- en beeldmachine (Qwen3-VL). Stel je voor dat je een expert in gedrag bent die naar een filmpje kijkt en zegt: "Ik zie iemand die met gebalde vuisten staat te schreeuwen, wat wijst op hoge spanning en onprettigheid." De computer doet precies dit: hij beschrijft het gedrag in woorden en gebruikt die beschrijving om het gevoel te begrijpen.
Het Oor (Geluid): De computer luistert naar de stem. Maar omdat er in het wild veel ruis is (auto's, wind), filtert het systeem eerst het geluid. Het kijkt eerst of de mond van de persoon beweegt (via MediaPipe) om te zien of er daadwerkelijk gesproken wordt. Alleen als er gesproken wordt, luistert het echt goed naar de toonhoogte en het tempo van de stem.

2. De Chef-kok: Hoe worden de signalen gemengd?

Nu heeft de computer drie verschillende signalen: gezicht, gedrag en geluid. Maar wat als het gezicht slecht zichtbaar is? Of als iemand fluistert? Dan moet de computer weten welk signaal hij moet vertrouwen.

Team RAS heeft twee manieren bedacht om deze signalen te mixen, alsof het twee verschillende recepten zijn:

Recept 1: De "Gespecialiseerde Teamwerkers" (DCMMOE)
Stel je een keuken voor met verschillende chefs. Elke chef is een expert in het combineren van twee ingrediënten (bijvoorbeeld: "Gezicht + Geluid"). Een slimme "hoofd-kok" (een poortmechanisme) kijkt per seconde welk team het beste werkt. Is het gezicht wazig? Dan geeft de hoofd-kok meer vertrouwen aan het geluidsteam. Het systeem past zich dus continu aan.
Recept 2: De "Betrouwbare Visuele Basis met Geluid als Hulp" (RAAV)
Hier kijkt de computer eerst heel goed naar het beeld (gezicht en gedrag) om het moment vast te leggen. Het geluid wordt dan gebruikt als een "achtergrondinformatie" die helpt om de beslissing te versterken. Het is alsof je iemand in de ogen kijkt om te weten hoe hij zich voelt, maar zijn stemgeluid helpt je om te bevestigen of hij boos of juist opgewonden is.

3. Het Resultaat: Een Slimme Voorspeller

In de test (op een dataset met duizenden video's van echte mensen in het wild) bleek dat hun systeem heel goed werkt.

Als ze alleen naar het gezicht keken, was het goed, maar niet perfect.
Als ze alleen naar het geluid keken, was het vaak verkeerd omdat er veel ruis was.
Maar toen ze alles samenbrachten (vooral met de tweede mix-methode), werd het systeem veel slimmer. Het haalde een score die laat zien dat het de gevoelens van mensen in het echte leven zeer nauwkeurig kan inschatten.

Kortom: Team RAS heeft een systeem gebouwd dat niet alleen "kijkt", maar ook "luistert" en "begrijpt" wat er gebeurt. Door slimme technologieën te gebruiken die lijken op hoe een mens verschillende zintuigen combineert, kunnen computers nu beter voelen wat mensen voelen, zelfs in de meest chaotische situaties.

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

1. De Drie Sinnen van de Computer

2. De Chef-kok: Hoe worden de signalen gemengd?

3. Het Resultaat: Een Slimme Voorspeller

Probleemstelling

Methodologie

1. Gezichtsmodule (Face Modality)

2. Gedragsbeschrijvingsmodule (Behavior Modality)

3. Audiomodule (Audio Modality)

4. Fusiestrategieën

Belangrijkste Resultaten

Bijdragen en Significantie

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

1. De Drie Sinnen van de Computer

2. De Chef-kok: Hoe worden de signalen gemengd?

3. Het Resultaat: Een Slimme Voorspeller

Probleemstelling

Methodologie

1. Gezichtsmodule (Face Modality)

2. Gedragsbeschrijvingsmodule (Behavior Modality)

3. Audiomodule (Audio Modality)

4. Fusiestrategieën

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks