Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

Das Team RAS stellt im Rahmen des 10. ABAW-Wettbewerbs einen multimodalen Ansatz zur kontinuierlichen Schätzung von Valenz und Erregung unter realen Bedingungen vor, der Gesicht, Verhalten und Audio mittels moderner Architekturen wie Transformer, Qwen3-VL und Mamba kombiniert und durch adaptive Fusionsstrategien eine hohe Genauigkeit auf dem Aff-Wild2-Datensatz erzielt.

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

Veröffentlicht 2026-03-16
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Team RAS und die Kunst, Gefühle zu lesen: Eine einfache Erklärung

Stellen Sie sich vor, Sie sitzen in einem lauten Café. Ein Fremder sitzt an einem anderen Tisch. Sie wollen genau wissen, wie er sich gerade fühlt: Ist er glücklich oder traurig? Ist er ruhig oder aufgeregt? Das ist für einen Menschen schwer, weil das Licht flackert, jemand ihm auf die Schulter klopft (Verdeckungen) und er vielleicht nur kurz die Stirn runzieht.

Genau dieses Problem versucht Team RAS aus St. Petersburg mit ihrer Arbeit für den 10. „ABAW"-Wettbewerb zu lösen. Ihr Ziel: Eine KI bauen, die Gefühle (sogenannte Valenz = Positiv/Negativ und Arousal = Ruhig/Aufgeregt) auch unter chaotischen Bedingungen („in-the-wild") perfekt erkennt.

Hier ist, wie sie es gemacht haben, übersetzt in einfache Bilder:

1. Die drei Detektive (Die drei Sinne)

Statt sich nur auf einen Sinn zu verlassen, haben die Forscher drei verschiedene „Detektive" zusammengestellt, die zusammenarbeiten:

  • Der Gesichtsanalyst (Video):
    Dieser Detektive schaut sich das Gesicht an. Er nutzt ein System namens GRADA, das wie ein sehr gut trainierter Fotograf ist. Er ignoriert das schlechte Licht und den Hintergrund und konzentriert sich nur auf die winzigen Muskelbewegungen im Gesicht. Ein weiterer Spezialist (Transformer) schaut sich dann an, wie sich diese Mimik über die Zeit verändert – wie eine Geschichte, die sich aus einzelnen Bildern zusammensetzt.

  • Der Verhaltens-Experte (Künstliche Intelligenz mit Sprachverständnis):
    Das ist der kreative Teil. Die Forscher nutzen ein riesiges KI-Modell namens Qwen3-VL. Stellen Sie sich diesen Bot wie einen sehr aufmerksamen Psychologen vor, dem Sie ein Video zeigen. Sie geben ihm einen Auftrag: „Schau dir diese Person an: Wie steht sie da? Bewegt sie die Hände? Wie sieht der Raum aus? Beschreibe ihre Stimmung."
    Der Bot schreibt eine kurze Zusammenfassung des Verhaltens. Diese „Beschreibung" wird dann in mathematische Daten umgewandelt. Ein weiterer Spezialist (Mamba) sorgt dafür, dass der Bot die Entwicklung der Stimmung über die Zeit versteht, ähnlich wie ein Regisseur, der die Szenen eines Films in eine logische Reihenfolge bringt.

  • Der Hör-Experte (Audio):
    Dieser Detektive lauscht dem Ton. Aber hier gibt es ein Problem: In echten Videos ist oft nur Rauschen zu hören, oder die Person schweigt. Um das zu lösen, nutzt das Team ein cleveres Filter-System. Es schaut erst, ob sich der Mund der Person bewegt (wie bei einem Sprecher), und filtert dann nur die Teile heraus, in denen tatsächlich gesprochen wird. Der Rest (Rauschen) wird ignoriert. Das KI-Modell WavLM analysiert dann die Stimme auf Emotionen.

2. Das Team-Meeting (Die Verschmelzung)

Jetzt haben wir drei Detektive mit unterschiedlichen Meinungen. Wie kommen sie zu einer einzigen, richtigen Antwort? Dafür haben die Forscher zwei verschiedene Strategien entwickelt:

  • Strategie A: Der „Experten-Rat" (DCMMOE)
    Stellen Sie sich einen runden Tisch vor, an dem jeder Detektive den anderen befragt. Der Gesichts-Detektive fragt den Audio-Detektiven: „Was hörst du, während ich das sehe?" Der Audio-Detektive antwortet. Ein intelligenter Moderator (Gating-Mechanismus) entscheidet dann: „Heute ist das Bild sehr klar, also vertraue ich dem Gesichts-Detektiven mehr. Aber jetzt ist das Bild dunkel, also höre ich dem Audio-Detektiven genauer zu." Dieser Moderator passt die Gewichtung in Echtzeit an.

  • Strategie B: Der „Sicherheits-Check" (RAAV)
    Diese Strategie ist etwas anders aufgebaut. Hier steht das Bild (Gesicht + Verhalten) im Mittelpunkt. Der Audio-Detektive ist wie ein Berater, der nur dann eingreift, wenn er wichtiges Zusatzwissen hat. Das Bild wird Bild für Bild analysiert, und die Stimme dient nur als „Kontext", um sicherzustellen, dass die Interpretation des Bildes stimmt.

3. Das Ergebnis

Als das Team alles auf dem Datensatz Aff-Wild2 (eine riesige Sammlung von echten, chaotischen Videos) getestet hat, war das Ergebnis beeindruckend.

  • Allein war jeder Detektive gut, aber nicht perfekt.
  • Zusammen waren sie unschlagbar. Die Kombination aus Gesicht, Verhalten und Stimme erreichte eine Genauigkeit, die mit den besten Systemen der Welt mithalten kann.

Das Fazit in einem Satz:
Team RAS hat gezeigt, dass man Gefühle am besten versteht, wenn man nicht nur auf das Gesicht schaut, sondern auch auf die Körpersprache (beschrieben durch eine KI) und die Stimme hört – und wenn man diese Informationen intelligent kombiniert, als würden sie sich gegenseitig beraten.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →