UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Die Arbeit stellt UniM vor, das erste Benchmark-Dataset für ein einheitliches „Any-to-Any"-interleaved multimodales Lernen, das 31.000 hochwertige Instanzen über sieben Modalitäten hinweg umfasst und durch eine neue Evaluierungssuite sowie ein agentenbasiertes Basismodell die Herausforderungen für die Weiterentwicklung multimodaler Großsprachenmodelle aufzeigt.

Yanlin Li, Minghui Guo, Kaiwen Zhang, Shize Zhang, Yiran Zhao, Haodong Li, Congyue Zhou, Weijie Zheng, Yushen Yan, Shengqiong Wu, Wei Ji, Lei Cui, Furu Wei, Hao Fei, Mong-Li Lee, Wynne Hsu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🌍 Das große Puzzle: Wenn Computer alles verstehen und erschaffen können

Stell dir vor, du hast einen sehr klugen Roboter-Assistenten. Bisher waren diese Roboter wie Ein-Ding-Spezialisten.

  • Der eine konnte nur Bilder beschreiben (wie ein Kunstkritiker).
  • Der andere konnte nur Texte schreiben (wie ein Journalist).
  • Ein dritter konnte nur Musik abspielen.

Aber im echten Leben ist das Leben nicht so getrennt. Wenn du deinem Assistenten sagst: "Hier ist ein Foto von meinem kaputten Fahrrad, hier ist ein Video, wie ich es reparieren wollte, und hier ist eine Sprachnachricht mit meinen Gedanken dazu – bitte erstelle mir einen neuen Reparaturplan mit einem Video und einer Audio-Anleitung," dann scheitern die heutigen Roboter meistens. Sie verstehen nicht, wie man diese verschiedenen Dinge (Text, Bild, Ton, Video) durcheinander (interleaved) vermischt und eine Antwort in derselben Mischung gibt.

Das ist genau das Problem, das die Forscher mit UNIM lösen wollen.

🧩 Was ist UNIM? (Der neue Prüfungsplan)

Die Forscher haben UNIM entwickelt. Stell dir das wie einen neuen, extrem schwierigen Führerschein für KI-Modelle vor.

Bisherige Tests waren wie Fahrprüfungen, bei denen man nur geradeaus fahren durfte (nur Text und Bild). UNIM ist wie eine Prüfung im Stadtverkehr bei Regen:

  • Du musst gleichzeitig auf den Verkehr schauen (Video), auf das Navi hören (Audio), eine Karte lesen (Dokument) und dabei eine E-Mail schreiben (Text).
  • Und am Ende musst du nicht nur ankommen, sondern auch noch eine neue Route per Video und Sprachnachricht an deine Freunde senden.

Die Besonderheiten von UNIM:

  1. Alles ist erlaubt (Any-to-Any): Der Roboter kann alles als Eingabe bekommen (Text, Bild, Ton, Video, Code, 3D-Modelle) und muss alles als Ausgabe liefern.
  2. Das Durcheinander (Interleaved): Die Informationen sind nicht sortiert. Es ist nicht erst "alles Bild, dann alles Text". Es ist: Bild -> Text -> Ton -> Bild -> Code. Das ist genau so, wie Menschen kommunizieren.
  3. Der Schwierigkeitsgrad: Der Test hat 30 verschiedene Themenbereiche (von Medizin über Kunst bis hin zu Programmieren) und drei Schwierigkeitsstufen.

📏 Wie wird gemessen? (Der neue Notenspiegel)

Früher hat man nur gezählt: "Hat die KI das richtige Wort gesagt?" Das reicht nicht. Bei UNIM gibt es einen drei-Säulen-Notenspiegel:

  1. Sind die Fakten richtig? (Hast du verstanden, was im Bild zu sehen ist?)
  2. Ist die Struktur korrekt? (Hast du genau so viele Bilder und Töne geliefert wie verlangt? Nicht mehr, nicht weniger?)
  3. Hängt alles zusammen? (Klingt die Geschichte logisch? Passt der Tonfall des Textes zum Bild? Ist es nicht chaotisch?)

🤖 Der Held des Tests: UNIMA

Um zu zeigen, wie schwer dieser Test ist, haben die Forscher einen eigenen Roboter namens UNIMA gebaut.

Stell dir UNIMA nicht als einen einzelnen, riesigen Gehirn-Computer vor, sondern als einen kleinen, organisierten Bauleiter:

  • Der Empfang: Er nimmt alle Eingaben entgegen und macht sich Notizen (z.B. "Das Video zeigt einen Unfall, das Dokument ist ein Versicherungsschein").
  • Der Denker (Traceable Reasoning): Er plant Schritt für Schritt. "Okay, zuerst brauche ich eine Skizze, dann eine Erklärung, dann ein Video." Er überprüft seine eigene Arbeit, bevor er sie abgibt (wie ein Lehrer, der die Hausaufgaben korrigiert, bevor sie abgegeben werden).
  • Der Ersteller: Er ruft die richtigen Werkzeuge auf, um die Bilder, Videos und Töne zu produzieren.

Das Ergebnis?
Die aktuellen "Super-KIs" (wie AnyGPT oder NExT-GPT) haben bei diesem Test schlecht abgeschnitten. Sie waren oft verwirrt, lieferten die falsche Anzahl an Bildern oder ihre Antworten waren chaotisch.
UNIMA war zwar nicht perfekt, aber deutlich besser als alle anderen. Es hat gezeigt, dass man für diese Art von "Allround-Talent" eine ganz neue Art von Architektur braucht, die wie ein menschlicher Bauleiter denkt und plant, statt nur blind zu raten.

🚀 Warum ist das wichtig?

Wir bewegen uns weg von der Zeit, in der wir mit Computern nur Text tippen. Die Zukunft ist multimodal. Wir werden mit Computern sprechen, ihnen Fotos zeigen, Videos schicken und Code schreiben – alles gleichzeitig.

UNIM ist der erste Schritt, um sicherzustellen, dass unsere zukünftigen KI-Assistenten nicht nur "dumme Übersetzer" sind, sondern echte Partner, die den Kontext verstehen, logisch planen und kreativ auf unsere komplexen, verwobenen Anfragen antworten können.

Kurz gesagt: Die Welt ist bunt und chaotisch. UNIM ist der Test, der sicherstellt, dass unsere KI endlich mitkommt, statt nur in einer einzigen Farbe zu denken.