Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

Team LEYA und die Suche nach dem Zögern: Eine Reise durch die Welt der Gefühle

Stell dir vor, du sitzt in einem Gespräch. Jemand fragt dich: „Willst du wirklich diesen Job annehmen?" Die Person antwortet: „Naja, eigentlich... vielleicht ja, aber ich weiß nicht."

Das ist Ambivalenz (Zweifel) oder Hesitanz (Zögern). Es ist kein lautes „JA" oder ein deutliches „NEIN". Es ist dieses zögernde „Vielleicht", das in der Stimme, im Gesichtsausdruck und in den Worten steckt.

Das ist genau das Problem, das sich das Team LEYA aus Russland in einem großen Wettbewerb (der 10. ABAW-Konkurrenz) gestellt hat: Wie kann ein Computer erkennen, ob ein Mensch zögert oder unsicher ist, nur indem er sich einen Videoclip ansieht?

Hier ist die Erklärung ihrer Lösung, ganz einfach und mit ein paar bildhaften Vergleichen.

1. Das Problem: Warum ist das so schwer?

Stell dir vor, du versuchst, die Stimmung eines Films zu erraten, indem du nur einen einzigen Sinn benutzt.

Wenn du nur auf das Gesicht schaust, siehst du vielleicht ein Lächeln. Aber ist es ein echtes Lächeln oder ein nervöses?
Wenn du nur auf die Worte hörst, sagt die Person vielleicht „Ich bin sicher", aber ihre Stimme zittert.
Wenn du nur auf den Hintergrund schaust, siehst du vielleicht ein chaotisches Zimmer, was auf Stress hindeuten könnte.

Zögern ist wie ein Puzzle, bei dem die Teile oft widersprüchlich sind. Das Team LEYA wusste: Um das Rätsel zu lösen, muss man alle Teile gleichzeitig betrachten.

2. Die Lösung: Ein Team von vier Spezialisten

Das Team hat einen digitalen Detektiv-Club gegründet. Statt eines einzigen Roboters haben sie vier verschiedene „Experten" trainiert, die jeweils eine andere Sprache sprechen:

Der Szenen-Experte (VideoMAE): Er schaut sich den ganzen Raum an. Nicht nur das Gesicht, sondern wie sich die Person bewegt, wie die Kamera schwenkt und wie die Umgebung wirkt. Er ist wie ein Regisseur, der die „Stimmung" des Raumes spürt.
Der Gesichts-Experte (EmotionEfficientNet): Er ist wie ein Mikroskop für Mimik. Er scannt jede Sekunde des Videos, sucht nach winzigen Zuckungen um die Augen oder dem Zusammenbeißen der Lippen. Er fasst diese tausenden kleinen Bilder zu einer einzigen „Stimmungszusammenfassung" zusammen.
Der Audio-Experte (EmotionWav2Vec2.0 + Mamba): Er ist ein super-gehöriger Detektiv. Er hört nicht nur, was gesagt wird, sondern wie es gesagt wird. Zittert die Stimme? Ist sie zu schnell? Er nutzt eine moderne Technologie (Mamba), die sich wie ein sehr schneller, effizienter Gedächtnis-Speicher verhält, um die Reihenfolge der Töne zu verstehen.
Der Text-Experte (EmotionDistilRoBERTa): Er liest das, was gesagt wurde. Aber er ist schlauer als ein einfacher Wörterbuch-Scanner. Er versteht den Kontext. Wenn jemand sagt: „Ich bin mir nicht sicher, aber...", erkennt er sofort das Zögern in den Worten.

3. Der Chef-Manager: Die Multimodale Fusion

Jetzt haben wir vier Experten, die alle ihre eigene Meinung haben. Was passiert, wenn einer sagt „Ja" (Gesicht), einer „Nein" (Stimme) und einer „Vielleicht" (Worte)?

Hier kommt der Chef-Manager ins Spiel. Das ist das Fusions-Modell.
Stell dir vor, die vier Experten sitzen an einem Tisch. Der Manager hört jedem zu und versucht, ein Gesamtbild zu zeichnen.

Er nutzt eine Technik namens Transformer (die gleiche Technologie, die hinter modernen KI-Sprachmodellen steckt), um die Informationen aller vier Experten zu mischen.
Ein besonderer Trick des Teams war die „Prototypen"-Methode. Stell dir vor, der Manager hat zwei Karten im Kopf: eine für „Zögern" und eine für „Kein Zögern". Er vergleicht die gemischte Meinung der Experten mit diesen Karten. Wenn die Mischung sehr ähnlich zu der „Zögern"-Karte aussieht, gibt er ein „Zögern" aus.

4. Das Ergebnis: Warum funktioniert es?

Das Team hat ihre Methode an tausenden Videos getestet (dem sogenannten BAH-Korpus).

Einzelne Experten: Wenn nur der Text-Experte arbeitete, lag die Trefferquote bei ca. 70 %. Das ist gut, aber nicht perfekt.
Alle zusammen: Als alle vier Experten zusammenarbeiteten, stieg die Trefferquote im Test auf über 83 %.
Der Gewinner: Das Team hat sogar noch einen Schritt weiter gedacht. Sie haben nicht nur einen Chef-Manager genommen, sondern fünf davon, die alle ein wenig anders trainiert waren. Am Ende haben sie die Meinungen dieser fünf Manager gemittelt (ein sogenanntes „Ensemble"). Das war wie eine Jury, die gemeinsam entscheidet, um Fehler einzelner Mitglieder auszugleichen.

Mit diesem „Fünf-Mann-Team" erreichten sie am Ende 71,43 % auf dem finalen, geheimen Test – das war der beste Wert im Wettbewerb!

Fazit: Was lernen wir daraus?

Die Botschaft von Team LEYA ist einfach: Niemand ist perfekt allein, aber zusammen sind wir stark.

Um zu verstehen, ob jemand zögert, reicht es nicht, nur auf die Worte zu hören oder nur auf das Gesicht zu schauen. Man muss die ganze Geschichte hören, sehen und fühlen. Indem sie alle diese Informationen clever zusammengeführt haben, konnten sie eine KI bauen, die menschliches Zögern fast so gut erkennt wie ein sehr aufmerksamer Mensch.

Es ist wie bei einer guten Detektivarbeit: Man braucht nicht nur einen Zeugen, man braucht den Tatort, die Zeugenaussage, die Tonspur und die Akten, um das wahre Bild zu sehen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Multimodaler Ansatz zur Erkennung von Ambivalenz/Zögerlichkeit in Videos (Team LEYA, 10. ABAW Competition)

1. Problemstellung

Die Erkennung von Ambivalenz und Zögerlichkeit (Ambivalence/Hesitancy, A/H) in unkontrollierten Videos ist eine herausfordernde Aufgabe im Bereich des Affective Computing. Im Gegensatz zu Basisemotionen (wie Freude oder Überraschung) ist A/H ein subtiler, kontextabhängiger Zustand, der oft durch Inkonsistenzen zwischen verschiedenen Modalitäten (z. B. Diskrepanz zwischen Gesagtem, Tonfall und Mimik) gekennzeichnet ist.
Das Ziel des 10. ABAW-Wettbewerbs (Affective & Behavior Analysis in-the-Wild) ist die binäre Klassifikation auf Videoebene: Zu bestimmen, ob ein Video Ambivalenz/Zögerlichkeit enthält oder nicht. Die Herausforderung liegt in der Notwendigkeit, multimodale Signale zu integrieren, um diese subtilen Widersprüche zu erfassen.

2. Methodik

Das Team LEYA (von Forschern des St. Petersburg Federal Research Center der Russischen Akademie der Wissenschaften und der HSE University) entwickelte einen umfassenden multimodalen Pipeline, der vier komplementäre Modalitäten integriert: Szene, Gesicht, Audio und Text.

A. Unimodale Encoder (Feature-Extraktion):

Szene (Scene): Zur Erfassung der Verhaltensdynamik wird ein VideoMAE-Modell (Video Masked Autoencoder) verwendet, das auf ViT-Architektur basiert und auf Kinetics-400 vortrainiert ist. Es verarbeitet 16 Frames pro Video und erzeugt über globale Durchschnittspooling einen kompakten Szenen-Embedding-Vektor.
Gesicht (Face): Ein YOLO-basierter Detektor extrahiert Gesichter. Diese werden durch EmotionEfficientNetB0 (auf AffectNet+ feinabgestimmt) verarbeitet. Die Frame-Level-Embeddings werden statistisch gepoolt (Mittelwert $\mu$ und Varianz $\sigma$ ) und durch einen MLP (Multi-Layer Perceptron) gefiltert.
Audio: Die Audiospur wird mit EmotionWav2Vec2.0 (vortrainiert auf MSP-Podcast) extrahiert. Die zeitlichen Abhängigkeiten werden durch einen Mamba-Encoder (ein State-Space-Modell) modelliert, gefolgt von Mean-Pooling.
Text: Transkripte werden mit EmotionDistilRoBERTa (feinabgestimmt für A/H) verarbeitet. Der [CLS]-Token oder gemittelte Token-Embeddings werden durch einen MLP-Klassifikator geleitet.

B. Multimodale Fusion:
Die unimodalen Embeddings werden in einen gemeinsamen latenten Raum projiziert.

Fusionsarchitektur: Ein Transformer-basiertes Fusionsmodul verarbeitet die Modalitäts-Tokens. Ein maskierbarer Mechanismus ermöglicht den Umgang mit fehlenden Modalitäten.
Prototypen-Erweiterung (Prototype-Augmentation): Ein entscheidender innovativer Schritt ist die Einführung eines prototypbasierten Klassifikationsziels. Neben dem Haupt-Klassifikator werden lernbare Klassenprototypen eingeführt. Die Ähnlichkeit zwischen dem fusionierten Embedding und diesen Prototypen wird als zusätzlicher Verlustterm ( $L_{proto}$ ) genutzt, um die Trennbarkeit der Klassen im Embedding-Raum zu verbessern.
Ensemble: Für die finale Bewertung wurden fünf verschiedene Instanzen des prototypen-erweiterten Fusionsmodells (trainiert mit verschiedenen Random Seeds) zu einem Ensemble aggregiert, um die Robustheit zu erhöhen.

3. Wichtige Beiträge

Integration der Szenenmodalität: Im Gegensatz zu früheren Arbeiten, die sich oft nur auf Gesicht, Audio und Text konzentrierten, integriert dieser Ansatz explizit die Szeneninformation (VideoMAE), um den Kontext und die Umgebungsdynamik zu erfassen.
Prototypen-basierte Fusion: Die Einführung von lernbaren Prototypen als auxiliary loss in der Fusionsphase verbessert die Modellierung von Unsicherheit und inkonsistenten multimodalen Beweisen.
Umfassende Evaluierung: Das Paper bietet eine detaillierte Abstraktionsstudie (Ablation Study), die die Beiträge einzelner Modalitäten und deren Kombinationen quantifiziert.
Open Source: Der vollständige Quellcode ist öffentlich verfügbar, was die Reproduzierbarkeit fördert.

4. Ergebnisse

Die Experimente wurden auf dem BAH-Korpus durchgeführt (1.427 Videos, 300 Teilnehmer). Die Hauptmetrik ist der Macro F1-Score (MF1).

Unimodale Baselines:
- Text (EmotionDistilRoBERTa) war die stärkste einzelne Modalität mit 70,02 % MF1.
- Audio (Mamba) erreichte 69,03 %.
- Gesicht und Szene lagen deutlich niedriger (~62 % bzw. ~62 %).
Multimodale Fusion:
- Alle Fusionsmodelle übertrafen die unimodalen Baselines deutlich.
- Das beste einzelne Fusionsmodell (mit Prototypen-Head) erreichte im Durchschnitt 83,25 % MF1.
- Das Ensemble aus fünf prototypen-erweiterten Modellen erzielte die höchste Leistung auf dem privaten Testset mit 71,43 % MF1.
Ablationsstudie:
- Die Kombination von Szene und Text erwies sich als die stärkste Paar-Kombination (80,39 %).
- Die vollständige 4-Modalitäten-Fusion (Szene, Gesicht, Audio, Text) lieferte die insgesamt beste Lösung.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Erkennung von Ambivalenz und Zögerlichkeit in unkontrollierten Umgebungen effektiv nur durch eine robuste multimodale Fusion gelöst werden kann.

Komplementarität: Die Ergebnisse belegen, dass Text zwar die stärkste einzelne Signatur liefert, aber die Kombination mit visuellen (Szene/Gesicht) und akustischen Signalen notwendig ist, um die subtilen Widersprüche zu erfassen, die A/H charakterisieren.
Strategie: Die Verwendung von Prototypen im Fusionsprozess und die Aggregation durch Ensembles sind entscheidende Strategien, um die Generalisierungsfähigkeit auf unbekannte Testdaten zu verbessern.
Zukunft: Der Ansatz liefert einen starken Benchmark für zukünftige Arbeiten im Bereich der Verhaltensanalyse in digitalen Gesundheitsinterventionen, wo das Erkennen von Entscheidungszweifel und Widerstand gegen Verhaltensänderungen kritisch ist.

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

1. Das Problem: Warum ist das so schwer?

2. Die Lösung: Ein Team von vier Spezialisten

3. Der Chef-Manager: Die Multimodale Fusion

4. Das Ergebnis: Warum funktioniert es?

Fazit: Was lernen wir daraus?

Titel: Multimodaler Ansatz zur Erkennung von Ambivalenz/Zögerlichkeit in Videos (Team LEYA, 10. ABAW Competition)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks