UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Each language version is independently generated for its own context, not a direct translation.

🌍 Das große Puzzle: Wenn Computer alles verstehen und erschaffen können

Stell dir vor, du hast einen sehr klugen Roboter-Assistenten. Bisher waren diese Roboter wie Ein-Ding-Spezialisten.

Der eine konnte nur Bilder beschreiben (wie ein Kunstkritiker).
Der andere konnte nur Texte schreiben (wie ein Journalist).
Ein dritter konnte nur Musik abspielen.

Aber im echten Leben ist das Leben nicht so getrennt. Wenn du deinem Assistenten sagst: "Hier ist ein Foto von meinem kaputten Fahrrad, hier ist ein Video, wie ich es reparieren wollte, und hier ist eine Sprachnachricht mit meinen Gedanken dazu – bitte erstelle mir einen neuen Reparaturplan mit einem Video und einer Audio-Anleitung," dann scheitern die heutigen Roboter meistens. Sie verstehen nicht, wie man diese verschiedenen Dinge (Text, Bild, Ton, Video) durcheinander (interleaved) vermischt und eine Antwort in derselben Mischung gibt.

Das ist genau das Problem, das die Forscher mit UNIM lösen wollen.

🧩 Was ist UNIM? (Der neue Prüfungsplan)

Die Forscher haben UNIM entwickelt. Stell dir das wie einen neuen, extrem schwierigen Führerschein für KI-Modelle vor.

Bisherige Tests waren wie Fahrprüfungen, bei denen man nur geradeaus fahren durfte (nur Text und Bild). UNIM ist wie eine Prüfung im Stadtverkehr bei Regen:

Du musst gleichzeitig auf den Verkehr schauen (Video), auf das Navi hören (Audio), eine Karte lesen (Dokument) und dabei eine E-Mail schreiben (Text).
Und am Ende musst du nicht nur ankommen, sondern auch noch eine neue Route per Video und Sprachnachricht an deine Freunde senden.

Die Besonderheiten von UNIM:

Alles ist erlaubt (Any-to-Any): Der Roboter kann alles als Eingabe bekommen (Text, Bild, Ton, Video, Code, 3D-Modelle) und muss alles als Ausgabe liefern.
Das Durcheinander (Interleaved): Die Informationen sind nicht sortiert. Es ist nicht erst "alles Bild, dann alles Text". Es ist: Bild -> Text -> Ton -> Bild -> Code. Das ist genau so, wie Menschen kommunizieren.
Der Schwierigkeitsgrad: Der Test hat 30 verschiedene Themenbereiche (von Medizin über Kunst bis hin zu Programmieren) und drei Schwierigkeitsstufen.

📏 Wie wird gemessen? (Der neue Notenspiegel)

Früher hat man nur gezählt: "Hat die KI das richtige Wort gesagt?" Das reicht nicht. Bei UNIM gibt es einen drei-Säulen-Notenspiegel:

Sind die Fakten richtig? (Hast du verstanden, was im Bild zu sehen ist?)
Ist die Struktur korrekt? (Hast du genau so viele Bilder und Töne geliefert wie verlangt? Nicht mehr, nicht weniger?)
Hängt alles zusammen? (Klingt die Geschichte logisch? Passt der Tonfall des Textes zum Bild? Ist es nicht chaotisch?)

🤖 Der Held des Tests: UNIMA

Um zu zeigen, wie schwer dieser Test ist, haben die Forscher einen eigenen Roboter namens UNIMA gebaut.

Stell dir UNIMA nicht als einen einzelnen, riesigen Gehirn-Computer vor, sondern als einen kleinen, organisierten Bauleiter:

Der Empfang: Er nimmt alle Eingaben entgegen und macht sich Notizen (z.B. "Das Video zeigt einen Unfall, das Dokument ist ein Versicherungsschein").
Der Denker (Traceable Reasoning): Er plant Schritt für Schritt. "Okay, zuerst brauche ich eine Skizze, dann eine Erklärung, dann ein Video." Er überprüft seine eigene Arbeit, bevor er sie abgibt (wie ein Lehrer, der die Hausaufgaben korrigiert, bevor sie abgegeben werden).
Der Ersteller: Er ruft die richtigen Werkzeuge auf, um die Bilder, Videos und Töne zu produzieren.

Das Ergebnis?
Die aktuellen "Super-KIs" (wie AnyGPT oder NExT-GPT) haben bei diesem Test schlecht abgeschnitten. Sie waren oft verwirrt, lieferten die falsche Anzahl an Bildern oder ihre Antworten waren chaotisch.
UNIMA war zwar nicht perfekt, aber deutlich besser als alle anderen. Es hat gezeigt, dass man für diese Art von "Allround-Talent" eine ganz neue Art von Architektur braucht, die wie ein menschlicher Bauleiter denkt und plant, statt nur blind zu raten.

🚀 Warum ist das wichtig?

Wir bewegen uns weg von der Zeit, in der wir mit Computern nur Text tippen. Die Zukunft ist multimodal. Wir werden mit Computern sprechen, ihnen Fotos zeigen, Videos schicken und Code schreiben – alles gleichzeitig.

UNIM ist der erste Schritt, um sicherzustellen, dass unsere zukünftigen KI-Assistenten nicht nur "dumme Übersetzer" sind, sondern echte Partner, die den Kontext verstehen, logisch planen und kreativ auf unsere komplexen, verwobenen Anfragen antworten können.

Kurz gesagt: Die Welt ist bunt und chaotisch. UNIM ist der Test, der sicherstellt, dass unsere KI endlich mitkommt, statt nur in einer einzigen Farbe zu denken.

Each language version is independently generated for its own context, not a direct translation.

Titel: UNIM: Ein einheitlicher Benchmark für beliebige, interleaved Multimodalität (Any-to-Any)

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben sich von rein visuell-sprachlichen Systemen zu einheitlichen Frameworks entwickelt, die sowohl Verständnis als auch Generierung unterstützen. Dennoch fehlt es aktuellen Ansätzen an der Fähigkeit, beliebig kombinierte und interleaved (verschachtelte) Eingaben und Ausgaben zu verarbeiten.

Aktuelle Einschränkungen: Bestehende Benchmarks konzentrieren sich fast ausschließlich auf Text-Bild-Paare. Sie erfassen nicht die Komplexität realer Anwendungen, bei denen Eingaben und Ausgaben aus beliebigen Sequenzen verschiedener Modalitäten bestehen können (z. B. Text, Bild, Audio, Video, Dokument, Code, 3D).
Lücke: Es fehlt ein umfassender Benchmark, der das Paradigma „Any-to-Any" (beliebige Eingabe zu beliebiger Ausgabe) unter einem einheitlichen Rahmenwerk testet, insbesondere hinsichtlich komplexer Verschachtelungsmuster und der Notwendigkeit mehrerer integrierter Reasoning-Fähigkeiten in einer einzigen Instanz.

2. Methodik und Aufbau

A. Der UNIM-Datensatz
Die Autoren stellen UNIM vor, den ersten einheitlichen Benchmark für „Any-to-Any Interleaved Multimodal Learning".

Umfang: Der Datensatz enthält 31.026 hochwertige Instanzen über 30 verschiedene Domänen (z. B. Naturwissenschaften, Sozialwissenschaften, allgemeine Bereiche).
Modalitäten: Er deckt 7 repräsentative Modalitäten ab: Text, Bild, Audio, Video, Dokument, Code und 3D.
Struktur: Die Daten sind im Open-Form-QA-Format aufgebaut. Eingaben und Ausgaben sind Sequenzen, in denen Text mit Platzhalter-Tags für nicht-textuelle Modalitäten (z. B. <image1>, <video2>) durchsetzt ist.
Komplexität: Jede Instanz ist so konzipiert, dass sie mehrere verschlungene Aufgaben und Reasoning-Fähigkeiten erfordert (z. B. räumliches Reasoning kombiniert mit zeitlichem Verständnis und Generierung).
Schwierigkeitsgrad: Die Instanzen sind in drei Level unterteilt (Einfach, Mittel, Schwer), basierend auf der Komplexität der Modalitätenkombination, der Anzahl der Verschachtelungen und der Tiefe des Reasonings.

B. UNIM Evaluation Suite (Bewertungssystem)
Da herkömmliche Metriken (wie Genauigkeit) für flexible, interleaved Generierung unzureichend sind, wurde eine neue Evaluations-Suite mit drei Dimensionen entwickelt:

Semantische Korrektheit & Generierungsqualität (Semantic Correctness & Generation Quality - SC & GQ):
- Misst die semantische Übereinstimmung mit der Ground Truth (unter Umwandlung aller Modalitäten in Text-Captions für den Vergleich).
- Bewertet die perceptuelle Qualität (z. B. NIQE für Bilder, Signalqualität für Audio).
- Kombiniert zu einem SQCS (Semantic-Quality Coupled Score).
Integrität der Antwortstruktur (Response Structure Integrity):
- Bewertet, ob das Modell die geforderten Modalitätstypen und -anzahlen strikt einhält.
- Unterscheidung zwischen StS (Strict Structure Score: exakte Übereinstimmung) und LeS (Lenient Structure Score: Abdeckung der Modalitätstypen).
Interleaved Kohärenz (Interleaved Coherence):
- Misst die logische Verbindung und den stilistischen Fluss zwischen den Modalitäten.
- Besteht aus HC (Holistic Coherence: semantische/logische Konsistenz) und SH (Stylistic Harmony: Einheitlichkeit von Ton und Stil).
- Kombiniert zum ICS (Interleaved Coherence Score).

Unterstützungsrate ( $\tau$ ): Eine Metrik, die berücksichtigt, wie viele Modalitäten ein Modell überhaupt verarbeiten kann, um faire Vergleiche zwischen Modellen mit unterschiedlichen Fähigkeiten zu ermöglichen.

C. UNIMA (Baseline-Modell)
Um die Benchmark-Aufgaben zu lösen, wurde UNIMA (Unified Any-to-Any Interleaved Multimodal Agentic Model) entwickelt.

Architektur: Ein agentenbasiertes Framework mit drei Hauptmodulen:
1. Receiving Module: Konvertiert nicht-textuelle Eingaben in „Task-Conditioned Dense Captions" (TCDC), um einen einheitlichen Textraum für das Reasoning zu schaffen.
2. Traceable Evidence Reasoning (TER) Module: Das Kernstück. Es plant, validiert und verfeinert Reasoning-Schritte explizit. Es nutzt einen „Structured Evidence Reasoning Chain" (SERC), der Datenanalyse (Code Interpreter) und Verifikation einschließt.
3. Generating Module: Erzeugt die finale interleaved Ausgabe basierend auf einem verifizierten Bericht, wobei spezialisierte Tools für jede Modalität (z. B. Sora-2 für Video, GPT-Image-1 für Bilder) aufgerufen werden.
Innovation: UNIMA nutzt eine Traceable Evidence-Strategie, bei der jeder Reasoning-Schritt überprüfbar und korrigierbar ist, bevor die finale Generierung erfolgt.

3. Ergebnisse

Schwierigkeit des Benchmarks: Aktuelle State-of-the-Art-Modelle (wie AnyGPT, NExT-GPT, MIO) schneiden auf UNIM sehr schlecht ab.
- Die meisten Baselines erreichen SQCS-Werte unter 20%, was auf massive semantische Abweichungen hinweist.
- Die Struktur-Integrität (StS/LeS) liegt bei Baselines oft unter 5%, da sie die geforderten Modalitätenkombinationen und -anzahlen nicht korrekt einhalten.
- Selbst bei einfachen Aufgaben versagen die Modelle oft, da die Komplexität der Verschachtelung ihre aktuellen Fähigkeiten übersteigt.
Leistung von UNIMA: UNIMA zeigt signifikant bessere Ergebnisse als alle Baselines.
- Es erreicht SQCS-Werte von ca. 60% und ICS-Werte von ca. 70%.
- Die Struktur-Integrität ist um ein Vielfaches höher (2–40x besser als Baselines).
- UNIMA demonstriert eine robuste Fähigkeit, komplexe Reasoning-Aufgaben über mehrere Modalitäten hinweg zu lösen und strukturierte, kohärente Ausgaben zu generieren.
Analyse: Die Ergebnisse zeigen, dass aktuelle MLLMs Schwierigkeiten haben, Modalitäten präzise zu synchronisieren und komplexe, sequenzielle Abhängigkeiten in interleaved Szenarien aufrechtzuerhalten.

4. Hauptbeiträge

Erster einheitlicher Benchmark: UNIM ist der erste Benchmark, der das „Any-to-Any" Paradigma mit 7 Modalitäten und 30 Domänen abdeckt und dabei echte Verschachtelungsmuster realer Anwendungen simuliert.
Umfassende Evaluations-Suite: Einführung einer mehrdimensionalen Bewertungsmethode (Semantik, Struktur, Kohärenz), die über einfache Genauigkeitsmetriken hinausgeht und die spezifischen Herausforderungen interleaved Generierung adressiert.
Agentic Baseline (UNIMA): Vorstellung eines neuen Modellarchitektur-Ansatzes, der auf Traceable Evidence und agentenbasiertem Reasoning basiert, um strukturierte und verifizierbare multimodale Ausgaben zu erzeugen.
Einblicke in die Forschung: Die Experimente offenbaren klare Grenzen aktueller Modelle und definieren klare Richtungen für die zukünftige Entwicklung einheitlicher multimodaler Intelligenz.

5. Bedeutung

Dieses Paper markiert einen wichtigen Meilenstein in der Entwicklung von Multimodal Large Language Models. Es zeigt, dass die einfache Vereinigung von Verständnis und Generierung nicht ausreicht, um echte allgemeine multimodale Intelligenz zu erreichen. Stattdessen ist ein Paradigmenwechsel hin zu interleaved, any-to-any Systemen notwendig.

Für die Forschung: UNIM bietet eine strenge Testumgebung, um Fortschritte in der multimodalen Reasoning- und Generierungsfähigkeit zu messen.
Für die Anwendung: Die Ergebnisse unterstreichen die Notwendigkeit von Systemen, die komplexe, realweltliche Interaktionen (z. B. in KI-Assistenten, Programmier-Copilots oder Ingenieursystemen) bewältigen können, bei denen Eingaben und Ausgaben dynamisch und multimodal verschachtelt sind.
Zukunftsperspektive: Die Arbeit legt den Grundstein für die Entwicklung von End-to-End-Modellen, die nicht nur auf Text-Bild-Paare beschränkt sind, sondern die volle Bandbreite menschlicher multimodaler Kommunikation verstehen und erzeugen können.

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

🌍 Das große Puzzle: Wenn Computer alles verstehen und erschaffen können

🧩 Was ist UNIM? (Der neue Prüfungsplan)

📏 Wie wird gemessen? (Der neue Notenspiegel)

🤖 Der Held des Tests: UNIMA

🚀 Warum ist das wichtig?

Titel: UNIM: Ein einheitlicher Benchmark für beliebige, interleaved Multimodalität (Any-to-Any)

1. Problemstellung

2. Methodik und Aufbau

3. Ergebnisse

4. Hauptbeiträge

5. Bedeutung

Mehr davon

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents