MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Der Micro-Expression Grand Challenge (MEGC) 2026 stellt zwei neue Aufgaben vor, die multimodale Large Language Models nutzen, um Mikroexpressionen sowohl in kurzen als auch in langen Videos durch Visual Question Answering zu analysieren.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sitzen in einem Interview. Jemand stellt Ihnen eine schwierige Frage, und obwohl Sie versuchen, ruhig zu bleiben, zuckt für einen winzigen Bruchteil einer Sekunde Ihre Mundwinkel. Das ist eine Mikroexpression. Sie ist wie ein flüchtiger Schatten, der nur für weniger als eine halbe Sekunde über das Gesicht huscht, bevor er wieder verschwindet. Für das menschliche Auge ist das oft unsichtbar, aber für Computer ist es eine riesige Herausforderung, diese winzigen Signale zu finden und zu verstehen.

Dieser Text beschreibt einen großen Wettbewerb, den wir „MEGC 2026" nennen. Es ist wie ein olympisches Spiel für künstliche Intelligenz (KI), bei der es darum geht, diese flüchtigen Gesichtszüge zu entschlüsseln.

Hier ist die einfache Erklärung, was da passiert, mit ein paar lustigen Vergleichen:

1. Das große Ziel: KI wird zum Detektiv

Früher haben Computer nur versucht, zu zählen, wie oft ein Gesicht eine bestimmte Emotion zeigt. Aber jetzt wollen wir, dass die KI nicht nur schaut, sondern auch versteht und spricht.

Stellen Sie sich vor, Sie haben einen Video-Clip von jemandem, der lügt.

  • Der alte Weg: Der Computer sagt: „Da war Wut."
  • Der neue Weg (MEGC 2026): Sie fragen den Computer: „Warum hat er die Augenbraue hochgezogen?" und der Computer antwortet: „Weil er nervös war, aber versuchte, es zu verbergen."

Der Computer soll also wie ein politischer Analyst oder ein Sherlock Holmes agieren, der aus winzigen Hinweisen (den Mikroexpressionen) eine ganze Geschichte erzählt.

2. Die zwei Hauptaufgaben des Wettbewerbs

Der Wettbewerb hat zwei verschiedene „Disziplinen", ähnlich wie beim Leichtathletik:

Aufgabe 1: Der Sprint (ME-VQA)

Hier geht es um kurze Videoschnipsel.

  • Die Metapher: Stellen Sie sich vor, Sie sehen ein Foto oder ein 2-Sekunden-Video. Jemand fragt: „Was passiert hier?"
  • Die Herausforderung: Die KI muss blitzschnell erkennen, ob es sich um eine echte Freude oder eine gefälschte Lächeln handelt, und das in fließendem Deutsch (oder Englisch) erklären.
  • Das Problem: Die aktuellen KI-Modelle sind wie Schüler, die gerade erst angefangen haben, die Sprache der Gefühle zu lernen. Sie können grob erkennen, ob jemand traurig oder glücklich ist (wie ein Laie), aber sie scheitern oft daran, den feinen Unterschied zwischen „wahrer Freude" und „sozialem Lächeln" zu verstehen (wie ein Experte).

Aufgabe 2: Der Marathon (ME-LVQA)

Das ist die neue, viel schwierigere Herausforderung. Hier geht es um lange Videos, wie ganze Interviews oder Gespräche.

  • Die Metapher: Stellen Sie sich vor, Sie schauen einen ganzen Film von 10 Minuten Länge. In dieser Zeit lächelt die Person 50 Mal, gähnt 3 Mal und zeigt einmal für 0,2 Sekunden echte Angst.
  • Die Herausforderung: Die KI muss den ganzen Film verfolgen, sich merken, was wann passiert ist, und dann auf eine Frage antworten wie: „Wie oft hat die Person versucht, ihre Angst zu unterdrücken, und wann genau war das?"
  • Das Problem: Das ist wie der Versuch, eine Nadel im Heuhaufen zu finden, während der Heuhaufen ständig wächst. Die KI muss sich über lange Zeiträume konzentrieren und zwischen echten Mikro-Expressionen und normalen Gesichtsbewegungen (wie Gähnen oder Blinzeln) unterscheiden. Bisher tun sich die KIs hier sehr schwer; sie verlieren oft den Faden oder zählen Dinge falsch.

3. Was haben die Forscher bisher herausgefunden?

Die Autoren des Papiers haben einige „Testläufe" mit aktuellen KI-Modellen (die wie sehr intelligente Chatbots sind, die auch sehen können) durchgeführt.

  • Die Ergebnisse: Die KIs sind gut darin, grobe Dinge zu erkennen (z. B. „Jemand ist wütend"). Aber sobald es um die feinen Details geht (z. B. „Welche genaue Gesichtsmuskulatur hat sich bewegt?"), machen sie viele Fehler.
  • Der Vergleich: Es ist, als würde man einem Anfänger beibringen, ein Meisterwerk zu malen. Er kann die Farben grob mischen, aber die feinen Pinselstriche kommen noch nicht so gut hin.
  • Das Fazit: Um diese KIs besser zu machen, brauchen sie mehr Übungsmaterial. Bisher haben sie nur mit sehr wenigen „Probanden" trainiert. Das ist, als würde man einem Sportler nur gegen einen einzigen Gegner trainieren lassen; er wird dann nur gegen diesen einen Gegner gut sein, aber versagt, wenn er gegen jemand Neuen antritt.

Zusammenfassung für den Alltag

Dieser Wettbewerb ist ein Aufruf an die ganze Welt der KI-Forscher: „Kommt her und helft uns, diese winzigen, flüchtigen Gefühlsblitze zu verstehen!"

Es geht nicht nur darum, Emotionen zu zählen, sondern darum, eine KI zu bauen, die uns helfen kann, Lügen in Verhören zu erkennen, Stress bei Piloten zu messen oder einfach nur besser zu verstehen, wie Menschen wirklich fühlen, wenn sie versuchen, es zu verbergen. Die Reise ist noch lang, aber mit diesem Wettbewerb wollen wir den nächsten großen Schritt machen.