Relational graph-driven differential denoising and diffusion attention fusion for multimodal conversation emotion recognition

Die vorgestellte Arbeit adressiert die Herausforderungen von Rauschen und Modalitätsungleichgewichten bei der multimodalen Emotionserkennung durch ein relationales Graphen-Modell, das eine differenzielle Denoisierung, relationale Subgraphen und einen textgeführten Diffusionsmechanismus zur robusten Fusion von Audio-, Video- und Textdaten kombiniert.

Ying Liu, Yuntao Shou, Wei Ai, Tao Meng, Keqin Li

Veröffentlicht 2026-03-30
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sitzen in einem lauten Café und versuchen, eine emotionale Unterhaltung zwischen drei Freunden zu verstehen. Einer schreit, einer weint, und ein dritter lacht nervös. Aber das Café ist voller Hintergrundgeräusche: Geschirr klirrt, Musik läuft, und draußen hupt ein Auto.

Das Problem:
Wenn ein Computer versuchen würde, diese Gefühle zu erkennen, wäre er verwirrt.

  1. Das Rauschen: Die Audio- und Videodaten sind voller "Störgeräusche" (wie das Klirren im Café). Der Computer sieht oft nicht den wahren Ausdruck, sondern nur das Chaos.
  2. Das Missverhältnis: Der Text (was die Leute sagen) ist meistens der klarste Hinweis auf eine Emotion. Aber viele Computermodelle behandeln alle Sinne (Hören, Sehen, Lesen) gleich wichtig. Das ist, als würde man dem leisen Flüstern eines Freundes mehr glauben als dem klaren Satz, den er gerade spricht.

Die Lösung der Forscher (Der "ReDiFu"-Ansatz):
Die Autoren dieses Papiers haben einen neuen, cleveren Algorithmus entwickelt, den sie wie einen super-scharfen Detektiv mit drei speziellen Werkzeugen beschreiben können:

1. Der "Differenz-Detektiv" (Differential Denoising)

Stellen Sie sich vor, Sie schauen auf eine stehende Wasserfläche. Ein Stein wirft Wellen (das ist die Emotion), aber der Wind bewegt das Wasser ständig leicht hin und her (das ist das Rauschen).

  • Wie es funktioniert: Der Computer schaut sich nicht nur das Bild an, sondern vergleicht es mit dem Bild, das eine winzige Sekunde zuvor da war.
  • Die Analogie: Wenn sich das Wasser nicht verändert hat (nur der Wind weht), ignoriert der Computer es. Wenn sich aber plötzlich eine Welle bildet (eine neue Emotion), hebt er sie hervor.
  • Das Ergebnis: Das ständige "Hintergrundrauschen" wird herausgefiltert, und nur die echten, dynamischen Gefühlswechsel bleiben übrig.

2. Der "Beziehungs-Graph" (Relation Subgraphs)

In einer Gruppe von Menschen gibt es zwei Arten von Beziehungen:

  • Wer spricht mit wem? (Inter-speaker): Wenn Person A Person B antwortet.
  • Wie fühlt sich jemand selbst? (Intra-speaker): Wenn Person A ihre eigene Stimmung über die Zeit hinweg ändert.
  • Die Analogie: Frühere Modelle haben alle diese Beziehungen in einen großen, unordentlichen Haufen geworfen. Diese Forscher bauen jedoch zwei getrennte Karten: eine für die Interaktion zwischen den Leuten und eine für die innere Entwicklung jedes Einzelnen. So versteht der Computer besser, ob jemand traurig ist, weil er selbst unglücklich ist, oder weil ihn jemand anderes verletzt hat.

3. Der "Text-Compass" (Text-Guided Diffusion)

Hier kommt das wichtigste Werkzeug ins Spiel. In den meisten Fällen ist das, was jemand sagt (der Text), der verlässlichste Hinweis auf seine Gefühle.

  • Das Problem: Oft versuchen Computer, Audio und Video einfach "durchschnittlich" mit dem Text zu mischen. Das führt zu einem schwammigen Ergebnis.
  • Die Lösung: Der Text wird zum Kompass. Er führt den Prozess.
  • Die Analogie: Stellen Sie sich vor, der Text ist ein erfahrener Kapitän auf einem Schiff. Das Audio (Stimme) und das Video (Gesichtsausdruck) sind zwei Matrosen, die manchmal verwirrt sind oder von Wellen (Rauschen) hin und her geworfen werden. Der Kapitän (Text) sagt: "Hey, ich höre eine wütende Stimme, aber ich sehe ein trauriges Gesicht. Da mein Text 'Ich bin wütend' sagt, nehme ich die Wut der Stimme ernst und filtere die traurige Miene als Störung heraus."
  • Der Computer "diffundiert" (läuft) also die Informationen aus Bild und Ton in Richtung des Textes, statt sie alle gleich zu behandeln.

Das Endergebnis

Wenn man diese drei Werkzeuge kombiniert, erhält man ein System, das:

  1. Das "Café-Geräusch" herausfiltert.
  2. Genau weiß, wer mit wem redet und wie sich jeder fühlt.
  3. Dem Text vertraut, um die verworrenen Signale von Bild und Ton zu ordnen.

In Tests mit echten Datensätzen (wie Dialogen aus Filmen oder Interviews) hat dieses System deutlich besser funktioniert als alle bisherigen Methoden. Es ist robuster, genauer und versteht die Nuancen menschlicher Emotionen in chaotischen Situationen viel besser.

Kurz gesagt: Die Forscher haben einem Computer beigebracht, nicht nur hinzuhören und hinzusehen, sondern wirklich zu verstehen, indem er das Rauschen ignoriert, die Beziehungen zwischen den Leuten analysiert und dem gesprochenen Wort als Leitstern folgt.