HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

De HSEmotion Team: De "Gevoels-Detective" voor de ABAW-10 Wedstrijd

Stel je voor dat je een team van slimme detectives bent die een wedstrijd moeten winnen. De opdracht? Kijken naar video's van gewone mensen in de echte wereld en precies begrijpen wat ze voelen, wat ze doen, en of er gevaar dreigt. Dit is de ABAW-10 wedstrijd, een grote internationale uitdaging voor kunstmatige intelligentie (AI).

Het team van HSEmotion (uit Rusland) heeft een slimme, snelle strategie bedacht om deze vier moeilijke taken te voltooien. Hier is hoe ze het deden, vertaald in alledaagse taal:

1. De Drie "Gevoelens-Taken" (Gelaatsuitdrukking, Stemming en Spierbewegingen)

De eerste drie taken gaan over het lezen van gezichten:

Wat is hun emotie? (Bijvoorbeeld: blij, boos, verdrietig).
Hoe voelen ze zich? (Hoe intens is de stemming? Vaak gemeten als 'waardering' en 'opwinding').
Welke spieren bewegen? (Micro-bewegingen in het gezicht, zoals een opgetrokken wenkbrauw).

Hun slimme truc: De "Vertrouwde Expert" vs. De "Snelle Student"
Stel je voor dat je een foto van een gezicht ziet.

De Expert: Het team gebruikt een zeer ervaren, voorgetrainde AI (een "Expert") die duizenden foto's heeft gezien. Deze Expert is heel snel. Als de Expert 100% zeker is van zijn antwoord (bijvoorbeeld: "Dit is een glimlach!"), dan luistert het team direct naar hem.
De Student: Als de Expert twijfelt (bijvoorbeeld: "Hmm, dit is misschien boos, maar het is ook verdrietig"), dan haalt het team de "Student" erbij. Dit is een simpelere, snelle computerprogramma dat is getraind op de specifieke data van deze wedstrijd. De Student kijkt naar de "gevoels-afdrukken" (embeddings) die de Expert heeft gemaakt en maakt een eigen oordeel.

Het "Ruis-filter" (De Sliding Window)
Soms maakt de AI een foutje op één enkel beeldje (frame) in een video, net zoals je even kunt knipperen of een rare gezichtsbeweging kunt maken. Om dit op te lossen, kijken ze niet naar één beeldje, maar naar een kleine filmrolletje van beelden achter elkaar. Ze middelen de antwoorden over deze rolletje.

Analogie: Als iemand in een gesprek één keer "nee" zegt, maar de rest van de zin is "ja", dan begrijp je dat ze eigenlijk "ja" bedoelen. Het team doet hetzelfde: ze gladstrijken de antwoorden zodat de video niet heen en weer springt tussen emoties.

Geluid toevoegen
Soms helpt het om ook naar de stem te luisteren. Ze mengen de visuele analyse met geluidsdata (zoals de toonhoogte van een stem) om het oordeel nog scherper te maken.

2. De Vierde Taak: Geweld Detecteren (De "Gezichtslezer" vs. De "Scène-Kijker")

De laatste taak is anders: Geweld detecteren.
Hier is het gezicht niet het belangrijkste. Je moet kijken naar de hele scène: rennen mensen? Stoten ze iemand? Vallen ze?

Hun aanpak: De "Kijk-En-Verbind" Methode
Voor deze taak gebruiken ze een ander soort "camera":

De Camera (ConvNeXt): Een krachtige AI die elke foto van de video analyseert om te zien wat er gebeurt.
De Regisseur (TCN of BiLSTM): Een tweede AI die kijkt naar de beweging in de tijd. Hij ziet of de actie snel escaleert.
Het Skelet (Optioneel): Soms kijken ze ook naar de houding van het lichaam (sleutelbotten en gewrichten) om te zien of iemand valt of slaat.

Het team ontdekte dat het beter werkt om een sterke camera te gebruiken die op losse foto's is getraind, en daar dan een simpele "regisseur" bovenop te zetten die de beweging volgt, in plaats van een enorme, zware computer die alles in één keer probeert te doen.

Waarom is dit zo goed?

De winst van het HSEmotion-team zit hem in efficiëntie en slimme keuzes:

Geen overkill: Ze bouwen geen enorme, trage monsters. Ze gebruiken snelle, lichte modellen.
Vertrouwen: Ze vertrouwen op de "Expert" als die zeker is, en gebruiken de "Student" alleen als het nodig is.
Gladstrijken: Door de antwoorden over tijd te middelen, krijgen ze een rustig en betrouwbaar resultaat, zonder dat de AI elke seconde van gedachten verandert.

Conclusie
Het team heeft laten zien dat je niet altijd de zwaarste, duurste technologie nodig hebt om geweld of emoties in video's te herkennen. Door slim te combineren (snelheid + nauwkeurigheid + tijd) en ruis te filteren, kunnen ze zelfs in chaotische, echte situaties (zoals op straat of in een drukke kamer) heel goed zien wat er gebeurt.

Het is alsof ze een slimme, kalme observator hebben gebouwd die niet snel in paniek raakt, maar precies weet wat er aan de hand is.

Each language version is independently generated for its own context, not a direct translation.

Titel: HSEmotion Team bij ABAW-10 Competitie: Gezichtsexpressieherkenning, Valentie-Arousal Schatting, Actie-eenheid Detectie en Fijnmazige Geweldsclassificatie

Auteurs: Andrey V. Savchenko en Kseniia Tsypliakova (Sber AI Lab & HSE University)

1. Het Probleem

Het paper richt zich op de uitdagingen binnen de affectieve gedragsanalyse in onbeperkte, real-world omgevingen ("in-the-wild"). De auteurs nemen deel aan de 10e editie van de ABAW-competitie (Affective Behavior Analysis in-the-Wild). De kernuitdagingen zijn:

Complexiteit van data: Emotionele signalen zijn subtiel, vluchtig en vaak verstoord door occlusies, variaties in houding en verlichting, en ruis in de annotaties.
Computatie-efficiëntie: Praktische toepassingen (zoals verkeersveiligheid of contentmoderation) vereisen methoden die robuust zijn, goed omgaan met class-imbalance (ongelijke verdeling van emoties) en toch computatie-efficiënt zijn.
Specifieke taken: De paper behandelt vier taken:
1. Frame-wise Gezichtsexpressieherkenning (EXPR): Classificatie van 8 basisemoties per frame.
2. Valentie-Arousal (VA) Schatting: Het voorspellen van continue waarden voor positief/negatief (valentie) en activatie (arousal).
3. Actie-eenheid (AU) Detectie: Het detecteren van 12 micro-expressies (faciale spierbewegingen).
4. Fijnmazige Geweldsdetectie (VD): Het classificeren van frames als gewelddadig of niet-gewelddadig, waarbij het volledige beeld (lichaamsbeweging, interacties) nodig is.

2. Methodologie

De auteurs stellen een lichtgewicht, maar effectieve pijplijn voor die gebruikmaakt van voorgeprogrammeerde embeddings en eenvoudige classificatoren, in plaats van zware, end-to-end deep learning-modellen.

A. Gezichtsanalyse (EXPR, VA, AU)

De kern van hun aanpak voor de drie gezichtsgerelateerde taken is gebaseerd op EfficientNet-architecturen (uit de EmotiEffLib bibliotheek) die vooraf zijn getraind op het AffectNet-dataset.

Embedding Extractie: Voor elk frame worden gezichtsgebieden gedetecteerd en ingesloten in embeddings door een voorgeprogrammeerd model (bijv. EmotiEffNet).
Hybride Voorspelling:
1. Vertrouwensfilter: Als het voorgeprogrammeerde model een zeer hoge zekerheid heeft (boven een drempel $p_0$ , typisch 0.8-0.9), wordt de voorspelling van dit model direct gebruikt.
2. MLP Classificatie: Bij lagere zekerheid worden de embeddings gevoed aan een eenvoudige Multi-Layer Perceptron (MLP) die is getraind op het AffWild2-dataset.
Omgaan met Class Imbalance: Om de grote onbalans tussen emotieklassen aan te pakken, gebruiken ze GLA (Generalized Logit Adjustment). Dit kalibreert de bias in de laatste laag van de MLP om de F1-score te maximaliseren.
Temporele Gladdening: Om ruis in frame-voor-frame voorspellingen te verminderen, worden de waarschijnlijkheidscores over een schuivend venster (sliding window) gemiddeld.
Multimodale Fusie (Optioneel): Voor EXPR worden audio-features (wav2vec 2.0) geëxtraheerd en later gefuseerd met de visuele output via een gewogen gemiddelde.

B. Fijnmazige Geweldsdetectie (VD)

Voor deze taak is een andere aanpak nodig omdat het volledige beeldframe moet worden geanalyseerd.

Architectuur: Ze gebruiken een ConvNeXt-T backbone (voorgeprogrammeerd op ImageNet-1K) om per-frame features (768-dimensionaal) te extraheren.
Temporele Modellering: Deze features worden verwerkt door een 5-laags TCN (Temporal Convolutional Network) met dilatie.
Multimodale Variant: Een betere versie combineert de RGB-stream met skelet-features (geëxtraheerd via MediaPipe Pose), die via cross-attention worden gefuseerd met de visuele features en vervolgens door een BiLSTM worden verwerkt.
Training: Gebruik van gewogen cross-entropy om de onbalans tussen gewelddadige en niet-gewelddadige frames te compenseren.

3. Belangrijkste Bijdragen

Efficiënte Pijplijn: Het demonstreren dat een combinatie van sterke voorgeprogrammeerde embeddings (EfficientNet) en een simpele MLP-classificator, aangevuld met GLA en temporele gladdening, superieur presteert ten opzichte van complexe end-to-end modellen.
Hybride Inferentie: De innovatieve strategie om voorspellingen te baseren op het vertrouwen van het voorgeprogrammeerde model, en alleen een aangepaste MLP te gebruiken wanneer dat vertrouwen laag is.
Calibratie en Robuustheid: Het succesvol toepassen van GLA voor het oplossen van class-imbalance en het gebruik van drempelwaarden voor AU-detectie.
Framework Overstap: De auteurs zijn overgestapt van TensorFlow 2.x naar PyTorch, wat hun code toegankelijker maakt voor de bredere onderzoeksgemeenschap.
Open Source: De broncode voor de gezichtsgerelateerde taken en de geweldsdetectie is publiek beschikbaar gesteld.

4. Resultaten

De resultaten zijn getest op de officiële validatiedatasets van de ABAW-10 challenge:

Gezichtsexpressieherkenning (EXPR):
- De beste methode (EmotiEffNet + GLA + filtering + smoothing + audio) bereikte een F1-score van 47.40% en een nauwkeurigheid van 57.98%.
- Dit is een aanzienlijke verbetering ten opzichte van de baselines (bijv. VGGFACE: 25.0% F1) en verbetert ook de resultaten van eerdere winnaars.
Valentie-Arousal (VA):
- De methode met MT-DDAMFN embeddings en smoothing bereikte een gemiddelde CCC-score ( $P_{VA}$ ) van 0.562.
- Dit overtreft de ResNet-50 baseline (0.22) en benadert de prestaties van zwaardere transformer-modellen.
Actie-eenheid (AU) Detectie:
- De beste configuratie (EmotiEffNet embeddings + smoothing + beste drempels) behaalde een macro-averaged F1-score van 54.7%.
- Dit sluit de kloof met de top-pijplijnen (die vaak rond de 56-58% zitten) en overtreft audio-only of enkel-logit oplossingen.
Geweldsdetectie (VD):
- De ConvNeXt-T + TCN configuratie behaalde een Macro F1-score van 0.783 op het DVD-validatiedataset.
- Dit is een verbetering van meer dan 0.14 ten opzichte van de ABAW-9 baseline (ResNet-50 + BiLSTM, 0.640).
- Interessant genoeg presteerden 2D-encoders (ConvNeXt) met lichte temporele koppen beter dan zware 3D-video-architecturen (zoals VideoMAE of R(2+1)D).

5. Betekenis en Conclusie

Deze studie toont aan dat voor affectieve gedragsanalyse in de echte wereld niet per se de zwaarste, meest complexe deep learning-modellen nodig zijn. Door slimme gebruikmaking van voorgeprogrammeerde kennis (pre-trained embeddings), effectieve kalibratie (GLA) en temporele consistentie (smoothing), kunnen systemen worden gebouwd die:

Hoge nauwkeurigheid bereiken die concurrerend is met state-of-the-art methoden.
Computatie-efficiënt zijn, wat essentieel is voor real-time toepassingen.
Robuust zijn tegen ruis en class-imbalance.

De paper biedt een praktische, reproduceerbare blauwdruk voor ontwikkelaars die affectieve systemen willen implementeren in onbeperkte omgevingen, en markeert een verschuiving naar lichtere, goed geoptimaliseerde pipelines in plaats van puur op schaal gebaseerde modellen.

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

1. De Drie "Gevoelens-Taken" (Gelaatsuitdrukking, Stemming en Spierbewegingen)

2. De Vierde Taak: Geweld Detecteren (De "Gezichtslezer" vs. De "Scène-Kijker")

Waarom is dit zo goed?

Titel: HSEmotion Team bij ABAW-10 Competitie: Gezichtsexpressieherkenning, Valentie-Arousal Schatting, Actie-eenheid Detectie en Fijnmazige Geweldsclassificatie

1. Het Probleem

2. Methodologie

A. Gezichtsanalyse (EXPR, VA, AU)

B. Fijnmazige Geweldsdetectie (VD)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks