HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Dit artikel presenteert de resultaten van het HSEmotion-team bij de 10e ABAW-competitie, waarbij een efficiënte aanpak met vooraf getrainde EfficientNet-modellen en een MLP voor gezichtsemotieherkenning, waarden-arousal-schatting, actie-eu-detectie en fijnmazige geweldclassificatie aanzienlijk betere validatiemetrics oplevert dan bestaande baselines.

Andrey V. Savchenko, Kseniia Tsypliakova

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De HSEmotion Team: De "Gevoels-Detective" voor de ABAW-10 Wedstrijd

Stel je voor dat je een team van slimme detectives bent die een wedstrijd moeten winnen. De opdracht? Kijken naar video's van gewone mensen in de echte wereld en precies begrijpen wat ze voelen, wat ze doen, en of er gevaar dreigt. Dit is de ABAW-10 wedstrijd, een grote internationale uitdaging voor kunstmatige intelligentie (AI).

Het team van HSEmotion (uit Rusland) heeft een slimme, snelle strategie bedacht om deze vier moeilijke taken te voltooien. Hier is hoe ze het deden, vertaald in alledaagse taal:

1. De Drie "Gevoelens-Taken" (Gelaatsuitdrukking, Stemming en Spierbewegingen)

De eerste drie taken gaan over het lezen van gezichten:

  • Wat is hun emotie? (Bijvoorbeeld: blij, boos, verdrietig).
  • Hoe voelen ze zich? (Hoe intens is de stemming? Vaak gemeten als 'waardering' en 'opwinding').
  • Welke spieren bewegen? (Micro-bewegingen in het gezicht, zoals een opgetrokken wenkbrauw).

Hun slimme truc: De "Vertrouwde Expert" vs. De "Snelle Student"
Stel je voor dat je een foto van een gezicht ziet.

  1. De Expert: Het team gebruikt een zeer ervaren, voorgetrainde AI (een "Expert") die duizenden foto's heeft gezien. Deze Expert is heel snel. Als de Expert 100% zeker is van zijn antwoord (bijvoorbeeld: "Dit is een glimlach!"), dan luistert het team direct naar hem.
  2. De Student: Als de Expert twijfelt (bijvoorbeeld: "Hmm, dit is misschien boos, maar het is ook verdrietig"), dan haalt het team de "Student" erbij. Dit is een simpelere, snelle computerprogramma dat is getraind op de specifieke data van deze wedstrijd. De Student kijkt naar de "gevoels-afdrukken" (embeddings) die de Expert heeft gemaakt en maakt een eigen oordeel.

Het "Ruis-filter" (De Sliding Window)
Soms maakt de AI een foutje op één enkel beeldje (frame) in een video, net zoals je even kunt knipperen of een rare gezichtsbeweging kunt maken. Om dit op te lossen, kijken ze niet naar één beeldje, maar naar een kleine filmrolletje van beelden achter elkaar. Ze middelen de antwoorden over deze rolletje.

  • Analogie: Als iemand in een gesprek één keer "nee" zegt, maar de rest van de zin is "ja", dan begrijp je dat ze eigenlijk "ja" bedoelen. Het team doet hetzelfde: ze gladstrijken de antwoorden zodat de video niet heen en weer springt tussen emoties.

Geluid toevoegen
Soms helpt het om ook naar de stem te luisteren. Ze mengen de visuele analyse met geluidsdata (zoals de toonhoogte van een stem) om het oordeel nog scherper te maken.

2. De Vierde Taak: Geweld Detecteren (De "Gezichtslezer" vs. De "Scène-Kijker")

De laatste taak is anders: Geweld detecteren.
Hier is het gezicht niet het belangrijkste. Je moet kijken naar de hele scène: rennen mensen? Stoten ze iemand? Vallen ze?

Hun aanpak: De "Kijk-En-Verbind" Methode
Voor deze taak gebruiken ze een ander soort "camera":

  1. De Camera (ConvNeXt): Een krachtige AI die elke foto van de video analyseert om te zien wat er gebeurt.
  2. De Regisseur (TCN of BiLSTM): Een tweede AI die kijkt naar de beweging in de tijd. Hij ziet of de actie snel escaleert.
  3. Het Skelet (Optioneel): Soms kijken ze ook naar de houding van het lichaam (sleutelbotten en gewrichten) om te zien of iemand valt of slaat.

Het team ontdekte dat het beter werkt om een sterke camera te gebruiken die op losse foto's is getraind, en daar dan een simpele "regisseur" bovenop te zetten die de beweging volgt, in plaats van een enorme, zware computer die alles in één keer probeert te doen.

Waarom is dit zo goed?

De winst van het HSEmotion-team zit hem in efficiëntie en slimme keuzes:

  • Geen overkill: Ze bouwen geen enorme, trage monsters. Ze gebruiken snelle, lichte modellen.
  • Vertrouwen: Ze vertrouwen op de "Expert" als die zeker is, en gebruiken de "Student" alleen als het nodig is.
  • Gladstrijken: Door de antwoorden over tijd te middelen, krijgen ze een rustig en betrouwbaar resultaat, zonder dat de AI elke seconde van gedachten verandert.

Conclusie
Het team heeft laten zien dat je niet altijd de zwaarste, duurste technologie nodig hebt om geweld of emoties in video's te herkennen. Door slim te combineren (snelheid + nauwkeurigheid + tijd) en ruis te filteren, kunnen ze zelfs in chaotische, echte situaties (zoals op straat of in een drukke kamer) heel goed zien wat er gebeurt.

Het is alsof ze een slimme, kalme observator hebben gebouwd die niet snel in paniek raakt, maar precies weet wat er aan de hand is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →