Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, die Gefühle eines Freundes zu verstehen, während Sie mit ihm in einem lauten, chaotischen Café sitzen. Manchmal ist er hinter einem Stapel Zeitungen versteckt (Verdeckungen), manchmal ist das Licht zu dunkel, und manchmal schreit er vor Freude, während er das Gesicht abwendet.

Genau dieses Problem lösen die Autoren dieses Papers: Wie kann ein Computer die Gefühle eines Menschen erkennen, wenn die Welt nicht perfekt ist?

Hier ist die einfache Erklärung ihrer Lösung, übersetzt in eine Geschichte:

1. Das Problem: Der "blinde" und "taube" Roboter

Bisher waren Computer wie Roboter, die nur auf eine Art von Sensor angewiesen waren.

Der visuelle Roboter: Schaut nur auf das Gesicht. Wenn das Gesicht verdeckt ist oder der Kopf weggedreht wird, ist er blind und macht Fehler.
Der auditive Roboter: Hört nur die Stimme. Wenn niemand spricht, ist er taub.

Außerdem gibt es ein riesiges Ungleichgewicht: In den Trainingsdaten gibt es Tausende von Bildern von "Glück" und nur wenige von "Ekel" oder "Angst". Ein normaler Computer lernt daraus: "Glück ist immer die richtige Antwort!" und ignoriert die seltenen Gefühle.

2. Die Lösung: Ein duales Team mit einem Sicherheitsnetz

Die Autoren haben ein neues System gebaut, das wie ein zweiköpfiges Team funktioniert, das sich gegenseitig unterstützt.

Der "Augen"-Experte (Visuell): Er nutzt ein sehr intelligentes Gehirn (ein Modell namens BEiT-large), das wie ein erfahrener Fotograf trainiert wurde. Er sieht jedes Detail im Gesicht.
Der "Ohren"-Experte (Auditiv): Er nutzt ein anderes Gehirn (WavLM-large), das wie ein Musikproduzent trainiert wurde. Er hört nicht nur Worte, sondern den Tonfall, die Stimmung und die Emotion in der Stimme.

Das Genie: Der "Sichere Kreuzungs-Verkehr" (Safe Cross-Attention)

Normalerweise versuchen diese beiden Experten, sich ständig zu unterhalten. Aber was passiert, wenn der "Augen"-Experte plötzlich nichts sieht (weil jemand das Handy vor das Gesicht gehalten hat)?
In alten Systemen würde das ganze Team in Panik geraten und falsche Entscheidungen treffen.

In diesem neuen System gibt es einen Sicherheitsmechanismus:
Stellen Sie sich vor, der "Augen"-Experte fällt in Ohnmacht. Der "Ohren"-Experte sagt sofort: "Kein Problem! Ich übernehme die Führung!" Das System ist so gebaut, dass es nicht abstürzt, wenn ein Sensor ausfällt. Es nutzt einfach nur das, was noch da ist, und ignoriert das Fehlersignal. Das nennt man "Modality Dropout" (Modus-Ausfall-Simulation) während des Trainings, damit das System lernt, auch ohne die Augen zu funktionieren.

3. Der "Langschwanz"-Effekt: Die seltenen Gefühle

Wie erwähnt, gibt es im Datensatz viel zu wenig Beispiele für seltene Gefühle wie "Ekel" oder "Angst".
Stellen Sie sich vor, Sie lernen für eine Prüfung. 90 % der Fragen sind über "Glück". Wenn Sie nur diese lernen, bestehen Sie die Prüfung, aber bei den 10 % über "Ekel" versagen Sie.

Die Autoren nutzen eine spezielle Lernstrategie (Focal Loss):
Stellen Sie sich vor, der Lehrer sagt: "Die einfachen Fragen (Glück) zählen nur halb so viel. Die schwierigen, seltenen Fragen (Ekel, Angst) zählen doppelt so viel!"
Dadurch wird der Computer gezwungen, sich intensiv auf die seltenen Gefühle zu konzentrieren, anstatt sich auf das zu verlassen, was er ohnehin schon weiß.

4. Der "Schneeball"-Effekt: Nicht nur ein einzelnes Bild

Emotionen sind wie ein Film, nicht wie ein Standbild. Ein Lächeln entsteht langsam und verschwindet langsam.
Wenn der Computer jeden einzelnen Frame (Bild) einzeln bewertet, zittert das Ergebnis: Lächeln – Nichts – Lächeln – Nichts. Das sieht nervös aus.

Die Lösung ist ein gleitender Fenster-Effekt:
Stellen Sie sich vor, der Computer schaut nicht auf ein einzelnes Bild, sondern auf einen kleinen Filmclip (ein "Fenster"), der sich langsam über das Video bewegt. Er schaut sich die nächsten 64 Bilder an, bewertet sie gemeinsam und gleicht die Ergebnisse aus.
Dadurch wird das Ergebnis weich und fließend. Wenn jemand kurz die Augen schließt, denkt der Computer nicht sofort "Traurig", sondern "Ah, er hat nur kurz geblinzelt, er ist immer noch glücklich".

Das Ergebnis

Durch diese Kombination aus:

Zwei Sinnen (Sehen + Hören),
Sicherheitsnetz (funktioniert auch, wenn eines ausfällt),
Fokus auf das Seltenere (Lernen der schwierigen Gefühle) und
Geduld (Betrachten von ganzen Clips statt einzelner Bilder),

konnte das Team einen Computer bauen, der in der wilden, chaotischen Welt (im "In-the-Wild") etwa 61 % der Emotionen richtig erkennt. Das ist ein riesiger Schritt vorwärts, besonders weil das System nicht mehr panisch wird, wenn das Licht ausfällt oder jemand das Gesicht verdeckt.

Kurz gesagt: Sie haben einen Roboter gebaut, der nicht nur gut sieht und hört, sondern auch weiß, wie man improvisiert, wenn die Welt nicht mitmacht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Emotionserkennung in realen, unkontrollierten Umgebungen („in-the-wild") steht vor erheblichen Herausforderungen, die die Leistung bestehender Modelle einschränken:

Unvollständige Modalitäten: In natürlichen Szenarien werden visuelle Daten oft durch Verdeckungen (Occlusions), das Verlassen des Bildausschnitts durch die Person oder schlechte Beleuchtung unterbrochen.
Starke Klassenungleichheit: Datensätze wie Aff-Wild2 weisen eine „Long-Tail"-Verteilung auf, bei der bestimmte Emotionen (z. B. Wut, Ekel) viel seltener vorkommen als andere (z. B. Neutral, Freude). Standard-Modelle neigen dazu, sich auf die Mehrheitsklassen zu spezialisieren.
Rauschen und Kontextabhängigkeit: Emotionen sind subtil, mehrdeutig und stark kontextabhängig. Zudem müssen zeitliche Abhängigkeiten in langen Videos erfasst werden, ohne dass es zu einem „Jitter" (flackern) bei der Frame-zu-Frame-Klassifizierung kommt.

2. Methodik

Die Autoren schlagen ein robustes, multimodales End-to-End-Framework vor, das visuelle und auditive Merkmale dynamisch fusioniert. Der Ansatz besteht aus fünf Hauptkomponenten:

A. Feature-Extraktion und Pre-Training

Visuell: Statt Rohdaten direkt zu trainieren, wird ein zweistufiger Prozess genutzt. Zuerst wird ein großes, gemischtes statisches Dataset (aus Raf-DB, FERPlus, AffectNet) verwendet, um ein BEiT-large-Modell vorzutrainieren. Anschließend erfolgt ein domain-adaptives Fine-Tuning auf den Video-Frames des Ziel-Datensatzes (Aff-Wild2).
Auditiv: Der Audio-Stream wird extrahiert, auf 16 kHz neu abgetastet und durch ein vortrainiertes WavLM-large-Modell verarbeitet, um prosodische Merkmale und emotionale Schwankungen zu erfassen.
Synchronisation: Da Video und Audio unterschiedliche Abtastraten haben, werden die Audio-Features durch lineare Interpolation zeitlich mit den Video-Frames abgeglichen.

B. Multimodales Attention-Netzwerk (Dual-Branch Transformer)

Das Kernstück ist eine Dual-Branch-Architektur, die visuelle ( $V$ ) und auditive ( $A$ ) Merkmale in einem gemeinsamen Embedding-Raum verarbeitet:

Cross-Attention: Es werden bidirektionale Cross-Attention-Blöcke verwendet ( $H_{v \to a}$ und $H_{a \to v}$ ), um Interaktionen zwischen den Modalitäten zu ermöglichen.
Lernbare Gating-Mechanismen: Ein Gating-Modul (mit Sigmoid-Aktivierung) reguliert dynamisch den Informationsfluss. Es gewichtet die reinen unimodalen Merkmale gegen die fusionierten Cross-Modal-Features, um die beste Kombination für den aktuellen Kontext zu finden.

C. Modality Dropout und „Safe Cross-Attention"

Um die Robustheit bei fehlenden visuellen Daten zu gewährleisten, wurden zwei spezielle Mechanismen entwickelt:

Modality Dropout: Während des Trainings werden visuelle Eingaben mit einer Wahrscheinlichkeit $p$ zufällig maskiert (auf 0 gesetzt). Dies zwingt das Netzwerk, nicht ausschließlich auf visuelle Signale zu vertrauen.
Safe Attention Mechanism: Wenn während der Inferenz keine visuellen Merkmale vorliegen, verhindert ein spezieller Algorithmus, dass die Softmax-Funktion ungültige Werte erzeugt. Das System nutzt Residualverbindungen, um sich elegant auf die reinen Audio-Features zurückzugreifen („graceful degradation"), ohne dass die Klassifizierung zusammenbricht.

D. Optimierungsziel (Focal Loss)

Um das Problem der Klassenungleichheit zu adressieren, wird anstelle der Standard-Cross-Entropy Focal Loss verwendet.

Dieser Loss gewichtet schwer zu klassifizierende Beispiele (Minority Classes) höher und reduziert den Einfluss von leicht zu klassifizierenden Mehrheitsklassen.
Ungültige Frames (markiert als -1) werden explizit ignoriert, um Rauschen im Gradienten zu vermeiden.

E. Inferenz-Strategie und Post-Processing

Für lange Videos wird eine Sliding-Window-Strategie mit weicher Abstimmung (Soft Voting) eingesetzt:

Überlappende Fenster (Größe $W=64$ , Schrittweite $S=8$ ) modellieren lokale zeitliche Abhängigkeiten.
Anstatt harte Labels zu voten, werden die Logits aller Fenster, die einen Frame abdecken, gemittelt.
Ein Median-Filter (Kerngröße $k=11$ ) glättet die Vorhersagen auf Frame-Ebene, um kurzfristiges Jittern zu reduzieren, während emotionale Übergänge erhalten bleiben.

3. Wichtige Beiträge

Robustheit gegenüber fehlenden Modalitäten: Die Einführung des „Safe Cross-Attention"-Mechanismus ermöglicht es dem System, auch bei komplettem Ausfall des visuellen Signals (z. B. durch Verdeckung) zuverlässige Vorhersagen basierend auf Audio zu treffen.
Umgang mit Long-Tail-Daten: Die Kombination aus Focal Loss und dynamischen Klassen-Gewichten verbessert die Erkennungsrate seltener Emotionen signifikant.
Zeitliche Glättung: Die Sliding-Window-Soft-Voting-Strategie reduziert Rauschen in der Sequenzvorhersage und erfasst emotionale Übergänge realistischer als Frame-basierte Ansätze.
Optimierte Architektur: Die Abwägung zeigt, dass ein mittelgroßes Netzwerk ( $d=256$ , 3 Layer) mit moderatem Dropout ( $p=0.10$ ) besser generalisiert als stark parametrisierte Modelle, die zu Overfitting neigen.

4. Ergebnisse

Die Evaluation erfolgte auf dem Aff-Wild2 Validierungsset:

Genauigkeit (Accuracy): 60,79 %
F1-Score: 0,5029

Ablationsstudien zeigten:

Multimodalität ist essenziell: Ein reines Audio-Modell ( $\lambda=0.0$ ) erreicht nur 0,315 F1-Score, ein reines Video-Modell ( $\lambda=1.0$ ) 0,4368. Die Fusion ( $\lambda=0.7$ ) erreicht 0,4436 (im Baseline-Test) und im vollständigen Framework sogar 0,5029. Audio kompensiert effektiv visuelle Lücken.
Dropout-Effekt: Die Einführung von Modality Dropout ( $p=0.10$ ) steigerte den F1-Score von 0,4764 (ohne Dropout) auf 0,5029. Höhere Dropout-Raten ( $p \ge 0.15$ ) verschlechterten die Leistung, da zu viel visuelles Primärwissen verloren ging.
Modellgröße: Sehr tiefe oder breite Modelle führten zu einem Leistungsabfall, was auf Overfitting bei den begrenzten und verrauschten Daten hindeutet.

5. Bedeutung und Ausblick

Diese Arbeit liefert einen wichtigen Beitrag zur Emotionserkennung in der Wildnis, indem sie die Lücke zwischen kontrollierten Labordaten und realen Anwendungen schließt. Der Ansatz demonstriert, dass Multimodalität nicht nur die Genauigkeit erhöht, sondern vor allem die Fehlertoleranz des Systems verbessert.

Die Ergebnisse unterstreichen, dass in unkontrollierten Umgebungen Audio als kritische Backup-Modalität fungiert, wenn visuelle Daten fehlen. Für zukünftige Arbeiten schlagen die Autoren vor, groß angelegtes selbstüberwachtes Lernen auf ungelabelten natürlichen Videos zu erforschen, um die Abhängigkeit von manuellen Annotationen zu verringern und das Overfitting weiter zu reduzieren.