HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

🎭 Die Detektive für Gefühle und Gewalt: Wie das HSEmotion-Team den Wettbewerb gewann

Stellen Sie sich vor, Sie haben eine riesige Bibliothek voller Videobänder. Auf diesen Bändern sehen Sie Menschen in den unterschiedlichsten Situationen: lachend, weinend, wütend oder sogar in gefährlichen Auseinandersetzungen. Die Aufgabe des HSEmotion-Teams war es, einen Computer so zu programmieren, dass er diese Videos schaut und sofort versteht: „Was fühlt diese Person gerade?" oder „Ist hier gerade eine Schlägerei im Gange?"

Das war der Inhalt des ABAW-10-Wettbewerbs, einem riesigen internationalen Test für künstliche Intelligenz (KI). Das Team aus Russland hat dabei in vier verschiedenen Kategorien glänzen können. Hier ist, wie sie es gemacht haben – ohne komplizierte Fachbegriffe, sondern mit einfachen Vergleichen.

1. Das Gesicht lesen: Die „Gefühls-Brille" (Gesichtsausdruck)

Das Problem: Wenn man ein Video schaut, ist das Gesicht oft verwackelt, im Schatten oder teilweise verdeckt. Eine KI, die nur auf ein einzelnes Bild schaut, macht oft Fehler, weil sie den Kontext verliert.

Die Lösung des Teams:
Stellen Sie sich vor, das Team hat eine super-schnelle Brille (basierend auf einem Modell namens EfficientNet) entwickelt, die sie auf das Gesicht aufsetzt.

Der Trick: Diese Brille ist bereits in einer riesigen Bibliothek (mit Millionen von Fotos) trainiert worden. Sie kennt die Grundgefühle sehr gut.
Der Sicherheitscheck: Wenn die Brille zu 90 % sicher ist („Das ist eindeutig Wut!"), dann nimmt sie diese Antwort sofort.
Der Nachhilfelehrer: Wenn die Brille unsicher ist („Hmm, ist das Trauer oder Ärger?"), schickt sie das Bild an einen kleinen, schlauen Assistenten (einen MLP-Klassifikator). Dieser Assistent hat speziell für diesen Wettbewerb trainiert und hilft bei den schwierigen Fällen.
Der Glättungs-Effekt: Da Menschen ihre Gefühle nicht in Millisekunden ändern, haben die Forscher die Ergebnisse über eine kurze Zeitspanne „geglättet". Es ist wie beim Filmen: Statt eines zitternden Bildes haben sie einen stabilen Film gemacht. So verschwinden kleine Fehler.

Das Ergebnis: Ihr System war viel genauer als die alten Basismodelle, weil es nicht nur auf ein Bild schaut, sondern auf eine Kombination aus Erfahrung (der Brille) und spezifischem Wissen (dem Assistenten).

2. Die Stimmung messen: Der „Thermometer für Gefühle" (Valenz-Arousal)

Das Problem: Gefühle sind nicht nur „Glücklich" oder „Traurig". Sie haben zwei Dimensionen:

Valenz: Ist das Gefühl positiv (wie Sonne) oder negativ (wie Regen)?
Arousal: Wie intensiv ist es? Ein leises Lächeln oder ein lautes Gelächter?

Die Lösung:
Hier haben sie einen Thermometer benutzt, der nicht nur Grad anzeigt, sondern auch die Intensität misst.

Sie haben ein besonders sensibles Modell (MT-DDAMFN) genommen, das wie ein feinfühliger Sensor funktioniert.
Anstatt nur einen Wert zu nennen, haben sie den Sensor über die Zeit hinweg gemittelt (wiederum das „Glätten"), um Rauschen zu entfernen.
Das Ergebnis ist eine sehr präzise Landkarte der Stimmung, die zeigt, wie sich die Gefühle im Video entwickeln.

3. Die winzigen Muskelbewegungen: Das „Mikro-Magnifying-Glas" (Action Unit Detection)

Das Problem: Menschen bewegen ihre Gesichtsmuskeln winzig. Ein leichtes Zucken der Augenbraue (Action Unit) kann bedeuten, dass jemand lügt oder überrascht ist. Es gibt 12 solcher winzigen Signale gleichzeitig.

Die Lösung:
Stellen Sie sich vor, Sie haben ein Mikroskop, das auf 12 verschiedene Muskelpunkte gleichzeitig fokussiert.

Das Team hat das gleiche starke „Gefühls-Modell" wie oben benutzt, um die Gesichter zu scannen.
Statt nur eine Antwort zu geben, hat das System wie ein Schweizer Taschenmesser 12 verschiedene Klingen ausgefahren, um jede einzelne Muskelbewegung zu prüfen.
Sie haben auch gelernt, die „Schwellenwerte" anzupassen: Manchmal ist ein Zucken so schwach, dass man es erst ab einem bestimmten Punkt als „aktiv" zählt. Durch das Feinjustieren dieser Schwellenwerte wurde die Genauigkeit massiv gesteigert.

4. Gewalt erkennen: Der „Wachhund im ganzen Raum" (Gewalt-Erkennung)

Das Problem: Bei den vorherigen Aufgaben reichte es, nur auf das Gesicht zu schauen. Bei Gewalt muss man aber den ganzen Raum sehen. Man muss sehen, wie sich Körper bewegen, wie Menschen interagieren und ob etwas Schlimmes passiert. Ein Gesicht allein sagt hier oft nichts aus.

Die Lösung:
Hier haben sie einen Wachhund benutzt, der den ganzen Raum beobachtet.

Statt nur Gesichter zu analysieren, schaut das System auf den ganzen Bildausschnitt.
Sie haben ein sehr starkes Modell (ConvNeXt-T) benutzt, das wie ein erfahrener Sicherheitsbeamter ist, der jede Bewegung im Raum erkennt.
Der Clou: Sie haben dieses Modell mit einem Zeit-Modul (TCN) kombiniert. Das ist wie ein Filmregisseur, der nicht nur ein Standbild betrachtet, sondern die Abfolge der Bewegungen versteht. „War das eine schnelle Bewegung? War es eine Schlägerei?"
Sie haben sogar versucht, Skelett-Daten (die Position der Gelenke) hinzuzufügen, aber festgestellt, dass der „Wachhund", der einfach nur das Bild gut analysiert, oft schon besser ist als komplizierte Zusatz-Systeme.

🏆 Warum war das so erfolgreich?

Das Geheimnis des HSEmotion-Teams war nicht, die komplizierteste KI zu bauen, sondern die klügste Kombination:

Nicht alles neu erfinden: Sie haben bewährte, starke Modelle benutzt, die schon viel gelernt hatten (wie die „Brille").
Einfachheit schlägt Komplexität: Statt riesige, langsame Supercomputer zu bauen, nutzten sie leichte, schnelle Modelle, die sich gegenseitig helfen.
Fehlerbereinigung: Sie haben sich darauf konzentriert, die „Zitter-Effekte" in den Videos zu entfernen (durch Glättung) und die Unsicherheiten der KI zu korrigieren (durch Kalibrierung).

Fazit:
Das Team hat gezeigt, dass man für eine perfekte KI nicht unbedingt den schwersten Hammer braucht. Manchmal reicht ein gut geschliffenes Werkzeug, das man intelligent einsetzt. Ihr System ist schnell, genau und bereit für die echte Welt – egal ob im Auto, in der Überwachungskamera oder in der Therapie. Und das Beste: Sie haben den Code veröffentlicht, damit andere auch von ihrer „Brille" und ihrem „Wachhund" profitieren können!

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper präsentiert die Ergebnisse des HSEmotion-Teams beim 10. Wettbewerb „Affective Behavior Analysis in-the-Wild" (ABAW-10). Der Fokus liegt auf der Analyse menschlicher Emotionen und Verhaltensweisen in unkontrollierten Umgebungen („in-the-Wild"), was aufgrund von Herausforderungen wie Verdeckungen, variierenden Beleuchtungsbedingungen, großen Pose-Änderungen und verrauschten Annotationen schwierig ist.

Das Team bearbeitete vier spezifische Aufgaben:

Frame-basierte Gesichtsausdruckserkennung (EXPR): Klassifizierung von 8 Basisemotionen pro Videobild.
Valenz-Arousal-Schätzung (VA): Vorhersage kontinuierlicher emotionaler Werte (Valenz und Erregung) pro Frame.
Action Unit (AU) Detektion: Erkennung von 12 Mikro-Expressionen (Action Units) als Multi-Label-Klassifizierung.
Feingranulare Gewalterkennung (Fine-Grained Violence Detection, VD): Klassifizierung von Gewalt in Videos, wobei der gesamte Bildinhalt (Körperbewegung, Interaktionen) analysiert werden muss.

2. Methodik

Das Kernkonzept des Teams ist ein leichtgewichtiges, kalibrierungsorientiertes Pipeline-Design, das effiziente Ein-Frames-Feature-Extraktion mit einfacher zeitlicher Glättung und Modality-Fusion kombiniert.

A. Gesichtsanalyse (EXPR, VA, AU)

Feature-Extraktion: Anstatt komplexe zeitliche Modelle von Grund auf zu trainieren, nutzt das Team vortrainierte, effiziente Architekturen (EfficientNet, DDAMFN, MobileViT) aus der Bibliothek EmotiEffLib. Diese Modelle wurden auf dem großen AffectNet-Datensatz trainiert und extrahieren Gesichtsembeddings.
Klassifikationspipeline:
- Die extrahierten Embeddings werden in einen einfachen Multi-Layer-Perceptron (MLP) eingespeist.
- Umgang mit Klassenungleichgewicht: Da die Trainingsdaten (AffWild2) stark unausgewogen sind, wird GLA (Generalized Logit Adjustment) verwendet, um die Bias-Termine der letzten Schicht zu kalibrieren und die F1-Scores zu optimieren.
- Konfidenz-basiertes Filtering: Wenn das vortrainierte Modell eine sehr hohe Konfidenz (> Schwellenwert $p_0$ , typisch 0.8–0.9) für eine Emotion liefert, wird diese Vorhersage direkt übernommen. Andernfalls wird die Vorhersage des MLP verwendet.
- Zeitliche Glättung: Um Rauschen in Frame-für-Frame-Vorhersagen zu reduzieren, werden die Wahrscheinlichkeiten über ein gleitendes Fenster (Sliding Window) gemittelt.
- Multimodale Fusion: Für EXPR und VA werden akustische Merkmale (wav2vec 2.0) extrahiert und im späten Stadium (Late Fusion) mit den visuellen Vorhersagen gewichtet kombiniert.
Spezifika für AU: Hier wird ein MLP mit Sigmoid-Aktivierung für 12 Ausgänge trainiert. Die Schwellenwerte für die binäre Klassifizierung werden pro AU optimiert, anstatt einen festen Wert (0.5) zu verwenden.

B. Feingranulare Gewalterkennung (VD)

Im Gegensatz zur Gesichtsanalyse erfordert VD die Analyse des gesamten Bildes.
Bestes Single-Stream-Modell: Ein ConvNeXt-T (vortrainiert auf ImageNet-1K) extrahiert pro Frame 768-dimensionale Merkmale. Diese werden von einem 5-Layer Dilated TCN (Temporal Convolutional Network) verarbeitet, um zeitliche Dynamiken zu erfassen.
Multimodale Variante: Zusätzlich zu RGB-Daten werden Skelett-Features (via MediaPipe Pose) extrahiert (Koordinaten, Geschwindigkeiten, Interaktionsdistanzen). Diese werden über Cross-Attention mit den RGB-Merkmalen fusioniert und von einem BiLSTM verarbeitet.
Training: Verwendung von gewichteter Cross-Entropy (zur Kompensation des Klassenungleichgewichts), OneCycleLR-Scheduling und TrivialAugmentWide.

3. Wichtige Beiträge

Effizienz vs. Komplexität: Das Team zeigt, dass eine Kombination aus starken, vortrainierten Ein-Frames-Encodern und einfachen Nachverarbeitungsmodulen (MLP, Glättung) oft besser ist als komplexe, rechenintensive zeitliche Modelle (wie reine Transformer oder 3D-CNNs).
Kalibrierung und Filtering: Die Einführung von GLA zur Korrektur von Klassen-Bias und die Nutzung von Konfidenz-Schwellenwerten des vortrainierten Modells als Filtermechanismus verbessern die Robustheit signifikant.
Framework-Wechsel: Im Gegensatz zu früheren Teilnahmen (TensorFlow 2.x) wurde das Team vollständig auf PyTorch umgestellt, was die Reproduzierbarkeit für die Forschungscommunity erhöht.
Open Source: Der Code für EXPR, VA und AU sowie für die Gewalterkennung wurde öffentlich zugänglich gemacht.

4. Ergebnisse

Die Ergebnisse auf den Validierungssets der ABAW-10-Challenge zeigen deutliche Verbesserungen gegenüber den Baselines und vielen vorherigen Teilnehmern:

Expression Recognition (EXPR):
- Erzielte einen F1-Score von 47,40 und eine Genauigkeit von 57,98 %.
- Dies ist eine deutliche Steigerung gegenüber der Baseline (z.B. VGGFACE mit 25,0 % F1) und konkurriert mit komplexeren Multimodal-Ansätzen.
Valence-Arousal (VA):
- Erzielte einen durchschnittlichen CCC (Concordance Correlation Coefficient) von 0,562 (Valenz: 0,510, Arousal: 0,615).
- Übertrifft die ResNet-50-Baseline (0,22) und einfache EfficientNet-Ansätze signifikant.
Action Unit (AU) Detection:
- Erzielte einen F1-Score von 54,7 %.
- Dies schließt die Lücke zu den Top-Lösungen (die oft über 56 % liegen) und übertrifft reine Audio- oder Logit-Lösungen deutlich.
Violence Detection (VD):
- Der ConvNeXt-T + TCN-Ansatz erreichte einen Macro F1-Score von 0,783.
- Dies ist eine Verbesserung um mehr als 0,14 gegenüber der ABAW-9-Baseline (0,640) und übertrifft alle getesteten 3D-Architekturen (z.B. VideoMAE, SlowFast), die oft schlechter abschnitten.

5. Bedeutung und Fazit

Das Paper unterstreicht, dass für Anwendungen in der realen Welt („in-the-Wild") nicht zwingend die komplexesten Modelle notwendig sind. Ein pragmatischer Ansatz, der hochwertige vortrainierte Merkmale mit einfacher Kalibrierung und effizienter zeitlicher Glättung kombiniert, bietet ein hervorragendes Verhältnis zwischen Genauigkeit, Robustheit und Rechenkosten.

Die Ergebnisse demonstrieren, dass die Kombination aus ConvNeXt für räumliche Merkmale und TCN für zeitliche Merkmale eine überlegene Lösung für die Gewalterkennung darstellt. Für die Gesichtsanalyse zeigt sich, dass die Nutzung von Konfidenz-Schwellenwerten und Logit-Kalibrierung entscheidend ist, um mit verrauschten Daten und Klassenungleichgewichten umzugehen. Der Wechsel zu PyTorch und die Bereitstellung des Codes stärken die Reproduzierbarkeit und fördern die Weiterentwicklung im Bereich der affektiven Computierung.