Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen, aber etwas starren Übersetzer in deinem Kopf. Dieser Übersetzer (die aktuellen KI-Modelle) ist sehr gut darin, Sätze Wort für Wort zu bauen – wie eine Kette, bei der das nächste Glied nur entstehen kann, wenn das vorherige feststeht. Das funktioniert gut, ist aber langsam und manchmal unflexibel, wenn du plötzlich von Text zu Bild oder von Sprache zu Bild wechseln willst.

Die Forscher hinter Omni-Diffusion haben sich gedacht: „Was wäre, wenn wir diesen Übersetzer durch einen kreativen Maler ersetzen, der nicht von links nach rechts schreibt, sondern ein ganzes Bild auf einmal skizziert und dann nach und nach verfeinert?"

Hier ist die einfache Erklärung der Idee, wie ein kreatives Märchen:

1. Der alte Weg vs. der neue Weg

Der alte Weg (Autoregressiv): Stell dir vor, du baust ein Haus Ziegelstein für Ziegelstein. Du musst den ersten Stein legen, dann den zweiten darauf, und so weiter. Wenn du einen Fehler machst, musst du oft von vorne anfangen oder das ganze Haus neu bauen. Das ist langsam.
Der neue Weg (Omni-Diffusion): Stell dir vor, du hast einen Haufen lehmiger Klumpen (das ist das „verrauschte" Bild oder der Text). Zuerst ist alles ein unkenntlicher Haufen. Der KI-Maler schaut sich diesen Haufen an und sagt: „Aha, hier fehlt ein Fenster, dort ein Baum." Er füllt die Lücken nicht nacheinander, sondern parallel. Er kann an zehn Stellen gleichzeitig arbeiten und das Bild (oder den Text) schrittweise klarer werden lassen, bis es perfekt ist. Das ist viel schneller und flexibler.

2. Die „Einheitliche Sprache" aller Sinne

Bisher mussten KI-Modelle oft wie ein Team aus Spezialisten arbeiten: Ein Experte für Bilder, einer für Sprache, einer für Text. Sie mussten ihre Ergebnisse untereinander „übersetzen", was oft zu Missverständnissen führte.

Omni-Diffusion ist wie ein polymorpher Schamane, der eine einzige, universelle Sprache spricht.

Er verwandelt Bilder, gesprochene Worte und geschriebene Texte alle in dieselbe Art von „Bausteinen" (Tokens).
Stell dir vor, ein Bild von einer Katze, das Wort „Katze" und das Geräusch eines Miauens sind für ihn alle nur verschiedene Farben auf derselben Palette.
Weil er alle diese Dinge in derselben „universellen Sprache" versteht, kann er mühelos von einem Thema zum anderen springen. Du kannst ihm ein Bild zeigen und er spricht darüber, oder du sprichst einen Satz, und er malt dir ein Bild dazu – alles in einem einzigen Gehirn.

3. Wie lernt dieser Schamane? (Das Training)

Die Forscher haben diesem KI-Maler einen dreistufigen Lehrplan gegeben, damit er nicht überfordert wird:

Stufe 1 (Text & Bild): Zuerst lernt er, wie man Bilder beschreibt und wie man aus Texten Bilder malt. Er lernt, dass das Wort „Sonne" und das Bild einer Sonne zusammengehören.
Stufe 2 (Hinzufügen von Sprache): Dann lernt er, dass das Geräusch einer Sonne (vielleicht ein summendes Geräusch in einem Märchen) auch zu diesem Konzept passt. Er verbindet Text, Bild und Ton.
Stufe 3 (Das große Gespräch): Schließlich übt er komplexe Szenarien: Jemand spricht eine Frage zu einem Bild, und die KI antwortet nicht nur mit Text, sondern mit einem gesprochenen Satz und vielleicht sogar einem neuen Bild.

4. Die besonderen Tricks (Inferenz)

Damit dieser „Maler" nicht verwirrt wird, haben die Forscher ihm ein paar spezielle Werkzeuge gegeben:

Der „Positions-Strick": Bei Bildern neigt der Maler manchmal dazu, Muster zu wiederholen (z. B. oben und unten identische Bäume). Der „Strick" zwingt ihn, nicht nur von den Rändern zum Zentrum zu malen, sondern das Bild ausgewogener zu gestalten.
Der „Vorschau-Haken": Wenn die KI sprechen soll, weiß sie oft nicht, wie lang der Satz werden muss. Der „Haken" hilft ihr, sich vorher eine grobe Länge vorzustellen, damit sie nicht zu früh aufhört oder endlos weiterredet.

Warum ist das wichtig?

Bisher waren KI-Modelle wie ein Schweizer Taschenmesser mit vielen Klingen, die einzeln herausgeklappt werden mussten. Omni-Diffusion ist wie ein lebendiger Organismus, der alles gleichzeitig kann.

Es ist schneller (weil es parallel arbeitet), flexibler (weil es Text, Bild und Ton mischen kann) und versteht die Welt ganzheitlicher. Die Forscher zeigen damit, dass die Zukunft der KI nicht in immer längeren Textketten liegt, sondern in Modellen, die wie ein kreativer Künstler alles auf einmal „sehen" und erschaffen können.

Kurz gesagt: Omni-Diffusion ist der erste KI-Assistent, der nicht nur liest oder malt, sondern alles versteht und alles erschaffen kann – als wäre er ein universeller Künstler, der mit einem einzigen Pinselstrich die ganze Welt neu malen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Trotz der beeindruckenden Fortschritte bei multimodalen Large Language Models (MLLMs) basieren diese fast ausschließlich auf autoregressiven Architekturen. Diese Modelle generieren Token sequenziell (eines nach dem anderen), was inhärente Nachteile mit sich bringt:

Ineffizienz: Die sequenzielle Generierung verhindert eine parallele Verarbeitung, was die Inferenzgeschwindigkeit begrenzt.
Steuerbarkeit: Die Kontrolle über die semantische Struktur, das Ausgabeformat oder den Stil ist schwieriger als bei anderen Ansätzen.
Modularität: Viele bestehende Systeme nutzen ein LLM für Text und koppeln separate Modelle für andere Modalitäten (z. B. Bild- oder Sprachgeneratoren) an. Dies führt zu einem getrennten semantischen Raum, der eine echte „Any-to-Any"-Verarbeitung erschwert.

Ziel der Arbeit ist es, eine einheitliche Architektur zu schaffen, die Text, Sprache und Bilder in einem einzigen Modell vereint, ohne auf autoregressive Prinzipien angewiesen zu sein.

2. Methodik: Omni-Diffusion

Omni-Diffusion ist das erste „Any-to-Any"-Multimodal-Modell, das vollständig auf einem maskenbasierten diskreten Diffusionsmodell (Masked Discrete Diffusion Model, MDM) aufbaut.

Kernarchitektur

Einheitliche Tokenisierung: Das Modell verarbeitet rohe Daten (Text, Bild, Sprache) durch spezialisierte Tokenizer und wandelt sie in diskrete Token-Sequenzen um.
- Bilder: Nutzung von MAGVIT-v2 (Codebook-Größe 8192).
- Sprache: Nutzung von SenseVoiceSmall (Encoder) und GLM-4-Voice (Decoder) mit einem Codebook von 16384.
- Text: Standard-Text-Tokenisierung.
Gemeinsame Verteilung: Anstatt Text zu generieren und dann in andere Modalitäten zu projizieren, lernt Omni-Diffusion die gemeinsame Verteilung (Joint Distribution) aller multimodalen diskreten Token. Das Modell ist ein einheitlicher Mask-Token-Prädiktor, der für alle Modalitäten denselben Transformer-Backbone (basierend auf Dream-7B) nutzt.
Trainingsziel: Das Modell wird trainiert, indem Token-Sequenzen zufällig mit einem [MASK]-Token überdeckt werden. Das Ziel ist es, die ursprünglichen, nicht-maskierten Token basierend auf dem Kontext vorherzusagen (Cross-Entropy-Loss).

Trainingspipeline (Drei-Phasen-Ansatz)

Um Stabilität zu gewährleisten, wird das Modell schrittweise erweitert:

Phase 1 (Visuell-Sprachliche Vorausrichtung): Das vortrainierte Diffusions-Sprachmodell wird auf Text-zu-Bild und Bildunterschriften (Captioning) angepasst, um den visuellen Raum mit dem semantischen Sprachraum abzugleichen.
Phase 2 (Sprach-Visuell-Sprachliche gemeinsame Ausrichtung): Einführung von ASR (Spracherkennung) und TTS (Sprachsynthese) Daten, um die Verbindung zwischen Text und Sprache zu stärken.
Phase 3 (Sprachgesteuerte visuelle Interaktion): Feinabstimmung auf einem neu erstellten SDVI-Datensatz (Speech-Driven Visual Interaction). Dieser enthält Daten für mündliche visuelle Fragen und Antworten sowie Sprach-zu-Bild-Generierung, um echte multimodale Dialoge zu ermöglichen.

Spezielle Techniken

Attenuated Tail-Pad Masking: Um variable Längen der Ausgabe zu ermöglichen, werden am Ende der Sequenz Padding-Token hinzugefügt. Um ein Overfitting auf diese Padding-Token zu vermeiden, wird die Maskierungsrate für diese spezifischen Token durch einen Skalierungsfaktor $\gamma < 1$ reduziert.
Position Penalty (für Bilder): Um repetitive Muster in generierten Bildern zu vermeiden (die entstehen, wenn das Modell gleichzeitig vom Anfang und Ende der Sequenz zur Mitte hin decodiert), wird eine Strafe für die Logits der letzten $N$ Token angewendet. Dies erzwingt eine sanftere Generierungsreihenfolge.
Special Token Pre-Infilling (für Sprache): Um die Kohärenz bei Sprachdialogen zu verbessern, wird ein spezielles Token [begin-of-speech] an einer bestimmten Position (25% der Sequenzlänge) eingefügt. Dies zwingt das Modell, den ersten Teil als Text und den Rest als Sprachantwort zu generieren, wodurch die semantische Ausrichtung verbessert wird.
Adaptive Token-Längen-Zuweisung: Für ASR und TTS wird die initiale Länge der Mask-Sequenz basierend auf der Länge der Texteingabe geschätzt, um die Sampling-Effizienz zu erhöhen.

3. Hauptbeiträge

Erste Any-to-Any-Architektur auf Diffusionsbasis: Omni-Diffusion ist das erste Modell, das Text, Bild und Sprache in einem einzigen maskenbasierten Diffusionsmodell vereint, wodurch ein intrinsisch abgestimmter semantischer Raum entsteht.
Spezialisierte Trainings- und Inferenzstrategien: Entwicklung von Techniken wie der attenuierten Tail-Pad-Maskierung, Position Penalty und Pre-Infilling, die spezifisch auf die Eigenschaften diskreter Diffusionsmodelle zugeschnitten sind.
Umfassende Evaluierung: Nachweis, dass Diffusionsmodelle in der Lage sind, mit bestehenden autoregressiven Systemen in puncto Leistung und Qualität gleichzuziehen oder diese sogar zu übertreffen.

4. Ergebnisse

Die Evaluation erfolgte auf einer Vielzahl von Benchmarks:

Sprachaufgaben (ASR & TTS): Auf den Datensätzen LibriSpeech und LibriTTS erreichte Omni-Diffusion eine Wortfehlerrate (WER), die der von spezialisierten TTS-Modellen (wie CosyVoice) entspricht und deutlich besser ist als bei anderen „Any-to-Any"-Modellen (wie AnyGPT).
Visuelle Aufgaben (VQA & Text-to-Image):
- Visual Question Answering: Das Modell erreichte auf Benchmarks wie POPE, MME-Perception und Seed-2-Plus Leistungen, die mit spezialisierten visuellen LLMs (z. B. LLaVA, InstructBLIP) vergleichbar sind.
- Text-to-Image: Die generierten Bilder zeigen eine hohe semantische Übereinstimmung (CLIP-T) und visuelle Qualität (CLIP-I), die mit Modellen konkurrieren, die externe Diffusionsmodelle nutzen.
Cross-Modal Alignment: Bei der Generierung von Bildern basierend auf gesprochener Sprache (Speech-to-Image) zeigte das Modell eine vergleichbare Qualität wie bei Text-zu-Bild, was die starke Ausrichtung der Modalitäten beweist.
Sampling-Effizienz: Ein großer Vorteil ist die parallele Decodierung. Das Modell konnte bei Text-zu-Bild-Generierung die Anzahl der Zeitschritte von 256 auf nur 10 reduzieren, ohne signifikante Qualitätsverluste zu erleiden. Auch bei TTS blieb die Leistung stabil, wenn die Zeitschritte auf 25% der Token-Länge reduziert wurden.

5. Bedeutung und Ausblick

Omni-Diffusion demonstriert das erhebliche Potenzial von Diffusionsmodellen als Backbone für die nächste Generation multimodaler KI-Systeme.

Parallele Inferenz: Im Gegensatz zu autoregressiven Modellen ermöglicht die parallele Decodierung eine deutlich effizientere Generierung.
Einheitlichkeit: Durch die direkte Modellierung der gemeinsamen Verteilung aller Modalitäten entfällt die Notwendigkeit separater Decoder oder Adapter für jede Modalität, was zu einer robusteren und konsistenteren semantischen Repräsentation führt.
Flexibilität: Die Fähigkeit, Aufgaben wie „Bild-zu-Sprache", „Sprache-zu-Bild" oder komplexe Dialoge in einem einzigen Modell zu lösen, ohne zusätzliche Modelle zu benötigen, markiert einen wichtigen Schritt hin zu echten universellen multimodalen Agenten.

Zusammenfassend zeigt das Paper, dass diskrete Diffusionsmodelle eine vielversprechende, effiziente und leistungsfähige Alternative zu den derzeit dominierenden autoregressiven Architekturen für multimodale Intelligenz darstellen.