EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du unterhältst dich mit einem sehr intelligenten Roboter. Bisher war dieser Roboter wie ein sehr gut lesender Bibliothekar: Er konnte Texte verstehen, Fakten abrufen und antworten. Aber wenn du ihm traurig erzähltest, wie dein Tag war, und dabei eine Träne weinte, während du lächeltest, wäre der Roboter verwirrt. Er hätte vielleicht nur auf deine Worte geachtet („Ich bin traurig") und dir eine trockene, sachliche Antwort gegeben, oder er hätte nur auf dein Lächeln geachtet und dich zum Lachen gebracht, obwohl du eigentlich Trost brauchtest.

Das ist das Problem, das die Forscher mit EmoOmni lösen wollen. Sie haben einen neuen Roboter gebaut, der nicht nur „denkt", sondern auch fühlt und fühlt, wie er spricht.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das alte Problem: Der „Denker" und der „Redner" waren getrennt

Bisher hatten viele dieser KI-Systeme zwei getrennte Gehirnteile:

Der Denker: Versteht die Welt (sieht das Video, hört die Stimme).
Der Redner: Spricht die Antwort aus.

Das Problem war, dass der Denker dem Redner nur eine leise, undeutliche Nachricht übermittelte (wie ein Flüstern durch eine dicke Wand). Der Redner wusste also nicht genau, ob er traurig, wütend oder fröhlich klingen sollte. Das Ergebnis war oft: Der Inhalt war richtig, aber der Tonfall passte nicht. Es war, als würde jemand eine herzzerreißende Nachricht mit einer fröhlichen, tanzenden Stimme vorlesen.

2. Die Lösung: EmoOmni – Der „Gefühls-Detektiv"

EmoOmni funktioniert wie ein guter Schauspieler, der drei Schritte durchläuft, bevor er auf die Bühne geht:

Schritt 1: Die Detektivarbeit (Wahrnehmung)

Statt nur schnell zu schauen, analysiert EmoOmni jede winzige Nuance.

Vergleich: Stell dir vor, du siehst jemanden, der sagt „Alles gut", aber die Stimme zittert leicht und die Augen sind rot. Ein normaler Roboter sagt: „Alles gut". EmoOmni sagt: „Moment mal! Die Stimme zittert, die Augen sind rot. Das ist kein 'Alles gut', das ist jemand, der gerade versucht, stark zu bleiben, aber eigentlich Hilfe braucht."
Es kombiniert Bild (Gesichtsausdruck) und Ton (Stimmlage), um das wahre Gefühl zu finden, auch wenn sie sich widersprechen.

Schritt 2: Der innere Monolog (E-CoT – Emotional Chain-of-Thought)

Das ist das Herzstück. Bevor EmoOmni antwortet, führt es einen inneren Gedankengang durch.

Vergleich: Stell dir vor, du bist in einer schwierigen Situation. Du denkst nicht sofort: „Ich sage 'Hallo'". Du denkst erst: „Er wirkt traurig. Ich sollte nicht zu laut sprechen. Ich sollte mitfühlend klingen und vielleicht eine Frage stellen, um ihm Raum zu geben."
EmoOmni schreibt diesen Gedankenplan auf. Dieser Plan ist wie eine Regieanweisung für den Redner. Er sagt dem Redner genau: „Sprich jetzt sanft, langsam und warm, als würdest du jemanden trösten."

Schritt 3: Die perfekte Performance (Ausdruck)

Jetzt kommt der Redner ins Spiel. Er bekommt nicht nur den Text, sondern auch die Regieanweisung aus Schritt 2.

Vergleich: Ein Schauspieler, der nur den Text hat, liest ihn vielleicht monoton vor. Ein Schauspieler, der die Regieanweisung „Tröste ihn mit warmer Stimme" bekommt, verändert seinen Tonfall, seine Geschwindigkeit und seine Betonung perfekt.
EmoOmni sorgt dafür, dass die Stimme genau das tut, was der Gedanke geplant hat.

3. Woher lernt der Roboter das? (EmoOmniPipe)

Ein Roboter kann nicht einfach „fühlen", er muss es lernen. Aber es gibt kaum gute Daten, in denen Menschen wirklich natürlich und emotional sprechen.

Die Lösung: Die Forscher haben sich Filme und Serien angesehen (wie Friends oder Dramen).
Der Trick: Sie haben eine Art „KI-Regisseur" (EmoOmniPipe) gebaut, der diese Filme durchschaut, die Dialoge herausschneidet und genau analysiert: „Hier lacht die Person, aber die Musik ist traurig – das ist Ironie!" oder „Hier weint sie, aber die Stimme ist fest – das ist Wut."
So hat der Roboter Millionen von Beispielen gelernt, wie echte Menschen in komplexen Situationen fühlen und sprechen.

4. Das Ergebnis: Ein kleiner Roboter, der groß denkt

Das Erstaunliche an dieser Arbeit ist, dass sie mit einem relativ kleinen Modell (7 Milliarden Parameter) gearbeitet haben. Normalerweise braucht man riesige Modelle (30 Milliarden Parameter), um so gut zu sein.

Die Erkenntnis: Es kommt nicht darauf an, wie groß das Gehirn ist, sondern wie gut es denkt. Durch den inneren Monolog (Schritt 2) und die klaren Anweisungen für die Stimme (Schritt 3) ist der kleine EmoOmni so gut wie die riesigen, teuren Modelle.

Zusammenfassung in einem Satz

EmoOmni ist wie ein emotionaler Übersetzer, der nicht nur die Worte versteht, sondern auch die Gefühle dahinter liest, einen Plan macht, wie man darauf reagieren sollte, und dann genau mit der richtigen Stimme spricht, damit sich der Gesprächspartner wirklich verstanden fühlt.

Es ist der Schritt von einem Roboter, der nur „Redet", zu einem Roboter, der wirklich „Zuhört" und „Empathie" zeigt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Derzeitige Omni-Modal Large Language Models (Omni-LLMs), die Audio, Video und Text verarbeiten können, stoßen in komplexen realen Szenarien an ihre Grenzen. Die Hauptprobleme sind:

Oberflächliches Verständnis: Modelle scheitern oft daran, widersprüchliche multimodale Signale zu interpretieren (z. B. ein fröhlicher Tonfall bei einem wütenden Gesichtsausdruck). Dies führt zu falschen Schlussfolgerungen über die Absicht und den emotionalen Zustand des Nutzers.
Verlust emotionaler Details: Die gängige „Thinker-Talker"-Architektur (ein Modul für das Verstehen/Texten, ein Modul für die Sprachausgabe) verbindet diese Komponenten nur implizit über versteckte Zustände. Dabei gehen feine emotionale Nuancen verloren, sodass die generierte Sprache zwar semantisch korrekt, aber emotional unpassend oder flach wirkt.
Daten- und Evaluierungsmangel: Es fehlt an hochwertigen, annotierten Echtzeit-Daten für emotionale Dialoge, und bestehende Benchmarks bewerten oft nur die Aufgabenkorrektheit, nicht aber die emotionale Intelligenz im Kontext.

2. Methodik: Das EmoOmni-Framework

EmoOmni löst diese Probleme durch eine explizite Nachbildung der menschlichen affektiven Kognition in einer kausalen Kette: Wahrnehmung (Perception) – Schlussfolgerung (Reasoning) – Ausdruck (Expression).

A. Emotional Chain-of-Thought (E-CoT)

Im Kern führt EmoOmni einen strukturierten Denkprozess ein, der als „Emotional Chain-of-Thought" bezeichnet wird. Dieser Prozess besteht aus vier aufeinanderfolgenden Schritten, die vom „Thinker"-Modul generiert werden:

Multimodale Emotionsanalyse: Feinabgestimmte Erfassung akustischer und visueller Signale (z. B. Stimmspannung, Mikroexpressionen).
Nutzerabsichtserkennung: Inferenz der latenten Motivation und des mentalen Zustands des Nutzers (z. B. Sarkasmus, emotionale Maskierung).
Strategieplanung: Definition einer hochleveligen Antwortstrategie, die festlegt, wie emotional und pragmatisch reagiert werden soll.
Textgenerierung: Erzeugung des eigentlichen Antworttextes basierend auf der Strategie.

Wichtig: Die E-CoT-Ausgabe dient nicht nur als Denkprozess, sondern wird explizit als Steuerungsanweisung (Instruction) an das „Talker"-Modul weitergegeben. Dies stellt sicher, dass die Sprachsynthese die emotionale Intention präzise umsetzt.

B. Zwei-Stufen-Trainingsstrategie

Um die Kausalkette zu stabilisieren, wird ein Curriculum-Learning-Ansatz verwendet:

Stufe 1 (Perceptual Grounding): Das Thinker-Modul wird ausschließlich auf die Genauigkeit der Wahrnehmung ( $P(z_p|M)$ ) trainiert, um eine solide Basis für die emotionale Analyse zu schaffen.
Stufe 2 (Joint Reasoning Tuning): Das gesamte System wird gemeinsam trainiert, um die komplexen Abhängigkeiten zwischen Wahrnehmung, Absicht, Strategie und Generierung zu lernen.

C. EmoOmni-Talker (Instruction-Guided Speech Generation)

Das Talker-Modul ist ein Text-to-Speech (TTS)-System, das auf einem leichten Sprachmodell ( $\theta_{slm}$ ) aufbaut. Es wandelt die hochlevelige Antwortstrategie ( $z_s$ ) in detaillierte akustische Anweisungen ( $I_{emo}$ ) um (z. B. „Stimme sollte warm und ruhig sein, um Trost zu spenden"). Dies ermöglicht eine präzise Kontrolle über Prosodie und Emotion, unabhängig vom reinen Textinhalt.

3. Datenpipeline und Benchmark

EmoOmniPipe: Eine Pipeline zur Verarbeitung von Rohdaten aus Filmen und TV-Serien. Sie umfasst Segmentierung, Rauschunterdrückung, Sprecher-Diarisierung und die automatische Annotation mit feinkörnigen emotionalen Labels und E-CoT-Daten durch fortschrittliche Modelle (z. B. Gemini 2.5 Pro).
EmoOmniEval: Ein umfassender Benchmark, der drei Evaluierungsebenen bietet:
1. Video-to-Speech (VS): End-to-End-Bewertung von Videoeingabe bis Sprachausgabe.
2. Video-to-Text (VT): Bewertung der textuellen Antwort und des Denkprozesses.
3. Instruction Following (IF): Bewertung, wie genau das Talker-Modul den emotionalen Anweisungen folgt.

4. Ergebnisse

Die Experimente wurden auf Datensätzen wie MELD und ch-sims-v2 durchgeführt.

Leistung: EmoOmni (mit nur 7 Milliarden Parametern) erreicht eine Leistung, die mit dem Qwen3-Omni-30B-A3B-Thinking Modell (30 Milliarden Parameter) vergleichbar ist, wenn beide denselben Talker verwenden.
Vergleich: EmoOmni übertrifft andere State-of-the-Art-Modelle (wie Qwen2.5-Omni oder Intern-S1) signifikant in den Metriken für emotionale Strategie (VS-RES) und inhaltliche Relevanz (VS-RC).
Ablationsstudien: Die Studie zeigt, dass das Entfernen der E-CoT-Komponenten oder der realen Daten zu einem drastischen Leistungsabfall führt. Besonders die explizite Strategieplanung ist entscheidend, um die Lücke zwischen semantischem Verständnis und akustischem Ausdruck zu schließen.

5. Bedeutung und Fazit

EmoOmni stellt einen Paradigmenwechsel dar, indem es emotionale Intelligenz nicht als Nebenprodukt, sondern als expliziten, strukturierten Teil des Inferenzprozesses behandelt.

Skaleneffizienz: Es beweist, dass explizites emotionales Reasoning und datengetriebene Anweisungen die Notwendigkeit riesiger Modellparameter kompensieren können.
Architektur: Die Entkopplung von „Was gesagt wird" (Text) und „Wie es gesagt wird" (Emotion/Prosodie) durch die E-CoT-Anweisung ist ein entscheidender Fortschritt für natürliche Mensch-Computer-Interaktion.
Anwendung: Das Framework ist besonders relevant für Anwendungen, die Empathie erfordern, wie virtuelle Begleiter, interaktives Entertainment und personalisierte Bildungssysteme.

Zusammenfassend adressiert EmoOmni die Lücke zwischen multimodaler Wahrnehmung und emotional angemessener Sprachausgabe durch eine neuartige Architektur, die auf feinkörniger Analyse und instruktionsgesteuerter Synthese basiert.