Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Omni-Diffusion introduceert het eerste multimodale taalmodel dat volledig is gebaseerd op een gemaskerde discrete diffusie-architectuur en zo het begrijpen en genereren van tekst, spraak en beelden in één unified model verenigt.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-intelligente robot bouwt die niet alleen kan lezen en schrijven, maar ook kan kijken, luisteren en praten. Tot nu toe waren de slimste robots die we hadden, eigenlijk als een zeer snelle schrijver: ze schreven woord voor woord, letter voor letter, van links naar rechts. Dit noemen we "autoregressief". Het werkt goed, maar het is alsof je een schilderij maakt door één penseelstreek tegelijk te doen, terwijl je de rest van het doek nog niet ziet.

De onderzoekers van Omni-Diffusion hebben een heel andere aanpak bedacht. Ze zeggen: "Waarom niet alles tegelijk doen?"

Hier is een simpele uitleg van wat ze hebben gedaan, met behulp van een paar creatieve vergelijkingen:

1. De "Magische Sieradenkist" (In plaats van een schrijfmachine)

Stel je voor dat je een grote doos hebt vol met losse letters, plaatjes en geluiden.

  • De oude manier (Autoregressief): De robot pakt één letter, schrijft die op, pakt dan de volgende, en zo gaat het door. Het is een lange, lineaire lijn.
  • De nieuwe manier (Omni-Diffusion): De robot begint met een doos die volledig vol zit met vraagtekens (in de vakjargon: "mask tokens"). Het ziet eruit als een raadsel. De robot kijkt naar de vraagtekens en denkt: "Aha, hier hoort waarschijnlijk een 'k' te staan, en daar een plaatje van een kat."
  • Het proces: In plaats van één voor één te schrijven, kijkt de robot naar alle vraagtekens tegelijk. Hij vult er een paar in, kijkt weer, en vult er nog een paar in. Hij herhaalt dit proces totdat alle vraagtekens zijn vervangen door het juiste antwoord.

Dit is als het maken van een puzzel. Je begint met een lege puzzel en vult stukjes in die het beste passen bij de rest, totdat het hele plaatje helder is. Dit gaat veel sneller omdat je niet hoeft te wachten tot het vorige stukje klaar is om aan het volgende te beginnen.

2. De "Universele Vertaler"

Tot nu toe hadden we vaak aparte robots voor verschillende taken: één die goed kon tekenen, één die goed kon praten, en één die goed kon lezen. Als je de teken-robot iets wilde laten praten, moest je eerst een tussenstap maken.

Omni-Diffusion is als een universele vertaler die alles in één taal spreekt: "Tokens".

  • Of je nu een foto, een stemopname of een tekst invoert, de robot zet alles om in dezelfde soort bouwstenen.
  • Omdat alles in dezelfde taal is, begrijpt de robot dat een "gelach" in een stemopname en een "lachend gezicht" op een foto eigenlijk hetzelfde gevoel oproepen. Ze zitten in hetzelfde "gevoelsgebied" in zijn hersenen.
  • Hierdoor kan hij moeiteloos schakelen: "Ik hoorde een stem die vraagt om een tekening van een kat" -> Bamm -> Hij maakt de tekening. Of: "Ik zie een foto van een hond" -> Bamm -> Hij vertelt je er een verhaal over.

3. De "Slimme Regels" om fouten te voorkomen

Omdat de robot alles tegelijk probeert in te vullen, kan hij soms in de war raken. De onderzoekers hebben daarom een paar slimme trucs bedacht:

  • De "Geen Herhaling"-regel (Voor plaatjes): Soms tekent de robot twee keer dezelfde boom of twee keer dezelfde oogbol, omdat hij aan beide kanten van het plaatje tegelijk begint. De onderzoekers hebben een regel toegevoegd: "Hé, begin niet te snel aan de randen, wacht even met de uiteinden." Dit zorgt voor mooiere, meer natuurlijke plaatjes.
  • De "Vooraf invullen"-truc (Voor spreken): Als de robot een tekst moet omzetten naar spraak, helpt hij zichzelf door eerst een speciaal teken te zetten dat zegt: "Hier komt eerst de tekst, en daarna de stem." Dit zorgt ervoor dat de stemlogica klopt en hij niet halverwege de zin begint te stotteren.
  • De "Niet te lang"-regel: Soms maakt de robot te veel "leegte" (vulwoorden) aan het einde van een zin. De onderzoekers hebben de robot geleerd om die lege plekken minder vaak te maskeren, zodat hij zich meer focust op de echte inhoud.

Waarom is dit belangrijk?

Deze nieuwe robot (Omni-Diffusion) is niet alleen slimmer in het begrijpen van alles tegelijk, maar ook sneller. Omdat hij niet woord voor woord hoeft te wachten, kan hij in één keer een hele zin of een heel plaatje "ontdekken".

Het is alsof je van een robot die een briefje voor je schrijft, bent gegaan naar een robot die een compleet gesprek voert, een schilderij maakt en een liedje zingt, allemaal tegelijk, zonder te struikelen. Dit is een enorme stap voorwaarts voor de toekomst van kunstmatige intelligentie die echt "menselijk" aanvoelt in zijn interactie.