MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Die Arbeit stellt MuSaG vor, das erste deutschsprachige multimodale Datenset zur Sarkasmerkennung mit synchronisierten Text-, Audio- und Videodaten aus Fernsehsendungen, das zeigt, dass aktuelle Modelle im Gegensatz zu Menschen, die stark auf Audiohinweise angewiesen sind, primär auf Text basieren, und dient als Ressource für die Entwicklung robusterer multimodaler Systeme.

Aaron Scott, Maike Züfle, Jan Niehues

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du sitzt in einem Café und jemand sagt zu dir: „Na, das Wetter ist ja wirklich perfekt!" während draußen ein gewaltiger Sturm tobt und du bis zum Hals im Matsch stehst. Du weißt sofort: Der meint das nicht ernst. Er ist sarkastisch.

Das ist für Menschen leicht, aber für Computer eine echte Herausforderung. Ein Computer liest nur die Worte: „Wetter perfekt" und denkt: „Super, alles gut!" Er verpasst den Tonfall, das Augengeroll oder die verzogene Miene, die sagen: „Hey, ich mache nur Spaß!"

Genau hier kommt die neue Studie MuSaG ins Spiel. Hier ist die Erklärung, was die Forscher gemacht haben, einfach erklärt:

1. Das Problem: Der „dumme" Computer

Bisher waren Computer beim Erkennen von Sarkasmus eher wie ein strenger Lehrer, der nur den Text liest und die Stimmung ignoriert. Sie verstehen zwar die Worte, aber nicht die Gefühle dahinter. Sarkasmus ist wie ein verpacktes Geschenk: Auf der Verpackung steht „Geschenk", aber drin ist ein Haufen Mist. Nur wer die Verpackung aufreißt (also den Kontext, die Stimme und die Mimik sieht), merkt den Witz.

2. Die Lösung: Ein neues Trainingsbuch (MuSaG)

Die Forscher vom Karlsruher Institut für Technologie (KIT) haben ein neues „Trainingsbuch" für Computer erstellt, das sie MuSaG nennen.

  • Was ist drin? Es sind 33 Minuten Ausschnitte aus deutschen Fernsehsendungen (wie „heute show" oder „extra 3"), in denen Menschen sarkastisch sind.
  • Das Besondere: Es ist nicht nur Text. Es ist wie ein dreidimensionales Puzzle. Zu jedem Satz gibt es:
    1. Den Text (was gesagt wurde).
    2. Das Audio (wie es gesagt wurde – Tonfall, Lachen, Pausen).
    3. Das Video (wie es gesagt wurde – Augenrollen, Grinsen, Gesten).
  • Die menschliche Prüfung: Bevor die Computer das Buch bekommen haben, haben 12 echte Menschen jeden einzelnen Satz angehört, angeschaut und gelesen. Sie haben sich darauf geeinigt: „Das ist Sarkasmus" oder „Das ist ernst". Das ist der Maßstab, an dem die Computer gemessen werden.

3. Der große Test: Wer ist schlauer?

Die Forscher haben neun verschiedene KI-Modelle (sowohl kostenlose als auch teure kommerzielle) gegen dieses neue Buch getestet. Das Ergebnis war überraschend und zeigt eine große Lücke zwischen Mensch und Maschine:

  • Der Mensch: Wenn ein Mensch Sarkasmus hört, schaut er zuerst auf die Stimme. Der Tonfall verrät alles. Erst dann kommt der Text und zuletzt das Gesicht.
  • Der Computer: Die KIs sind wie ein Text-Leser mit verbundenen Augen. Sie ignorieren fast komplett die Stimme und das Gesicht. Sie versuchen, den Sarkasmus nur aus den Worten zu erraten.
    • Ergebnis: Die KIs waren beim Text ganz gut, aber wenn sie nur die Stimme oder nur das Video bekamen, waren sie oft ratlos. Sie konnten die „Geheimcodes" der menschlichen Kommunikation (wie ein sarkastisches Lächeln) noch nicht richtig lesen.

4. Die böse Überraschung: Mehr Kontext hilft nicht

Die Forscher dachten sich: „Vielleicht verstehen die KIs es besser, wenn wir ihnen den ganzen vorherigen Gesprächsverlauf zeigen?"
Stell dir vor, du liest einen Witz, aber davor stehen noch 15 Minuten lang langweilige Nachrichten.
Das Ergebnis war überraschend: Es wurde schlimmer!
Die KIs wurden durch den zusätzlichen Kontext verwirrt. Sie verloren den Fokus auf den eigentlichen Witz und rutschten in Fehler ab. Das ist wie wenn man jemandem einen Witz erzählt, aber davor noch eine Stunde lang über das Wetter redet – am Ende weiß der Zuhörer nicht mehr, worum es eigentlich geht.

5. Warum ist das wichtig?

Wir leben in einer Welt, in der wir mit Computern sprechen (Chatbots, Sprachassistenten). Wenn ein Computer nicht merkt, dass du sarkastisch bist, kann er:

  • Deine Kritik missverstehen und dich beleidigen.
  • In sozialen Medien falsche Inhalte als „freundlich" markieren.
  • Einfach nur dumm wirken.

Das Fazit:
MuSaG ist wie ein neuer, sehr genauer Spiegel für die KI. Er zeigt uns: Unsere Computer sind noch nicht so schlau wie wir Menschen, wenn es darum geht, den Unterton zu verstehen. Sie hören nur das, was gesagt wird, nicht das, was gemeint ist. Mit diesem neuen Datensatz hoffen die Forscher, KI-Systeme zu bauen, die bald nicht nur Worte, sondern auch die menschliche Seele (oder zumindest den sarkastischen Witz) verstehen.

Kurz gesagt: Wir haben den Computern ein neues Lehrbuch gegeben, damit sie lernen, dass „Das ist ja toll!" manchmal genau das Gegenteil bedeutet. Aber bis sie es wirklich verstehen, müssen sie noch viel üben – und zwar nicht nur lesen, sondern auch zuhören und hinsehen.