UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Dit paper introduceert UniM, het eerste benchmarkdataset en evaluatiesuite voor 'any-to-any' interleaved multimodale taken, samen met het UniMA-basismodel om de uitdagingen en vooruitgang van uniforme multimodale intelligentie te onderzoeken.

Yanlin Li, Minghui Guo, Kaiwen Zhang, Shize Zhang, Yiran Zhao, Haodong Li, Congyue Zhou, Weijie Zheng, Yushen Yan, Shengqiong Wu, Wei Ji, Lei Cui, Furu Wei, Hao Fei, Mong-Li Lee, Wynne Hsu

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super slimme digitale assistent hebt, zoals een futuristische Jeeves. Tot nu toe konden deze assistents vooral goed met tekst en foto's praten. Je gaf ze een foto en een vraag, en ze antwoordden met tekst.

Maar in het echte leven is het veel chaotischer. Je geeft ze misschien een video van een ongeluk, een audio-opname van een getuige, een PDF met de regels, en een 3D-model van de auto. En je verwacht dat ze niet alleen tekst teruggeven, maar misschien ook een nieuwe video maken, een code schrijven om de schade te berekenen, of een geluidsbericht met advies.

Deze paper introduceert UNIM, een nieuw "examen" voor kunstmatige intelligentie (AI) om te testen of ze deze complexe, gemengde wereld echt kunnen begrijpen en beheersen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Twee-voetige" Assistent

Tot nu toe waren de slimste AI-modellen als mensen die alleen met hun linkerbeen (tekst) en rechterbeen (foto's) konden lopen. Ze konden goed rennen op een vlakke weg (standaard taken), maar als je ze vroeg om te dansen op een trampoline terwijl ze een viool speelden (video + audio + tekst + code tegelijk), vielen ze om.

Bestaande tests keken alleen of ze konden praten over foto's. Maar in de echte wereld (bijvoorbeeld bij een ingenieur, een arts of een programmeur) werken mensen met alles: geluid, video, documenten, code en zelfs 3D-ruimtes.

2. De Oplossing: UNIM (De Grote Mix)

De auteurs hebben UNIM bedacht. Dit is de eerste grote "proef" die AI's test op hun vermogen om alles met alles te mengen.

  • Het Examen: UNIM bevat 31.000 moeilijke vragen.
  • De Ingrediënten: Het gebruikt 7 verschillende soorten "voedsel" voor de AI: Tekst, Afbeeldingen, Audio, Video, Documenten, Code en 3D-objecten.
  • De Vraag: De AI moet een vraag krijgen die een mix is (bijv. een video + een geluidsopname + een tekst) en een antwoord geven dat ook een mix is (bijv. een nieuwe video + een tekst + een geluidsbestand).

De Analogie:
Stel je voor dat je een kok vraagt: "Hier is een foto van een koe, hier is het geluid van een melkveehouder, en hier is een recept in het Frans. Maak een gerecht dat past bij dit verhaal, maar serveer het als een video met een stemvertelling."
Een oude AI zou zeggen: "Ik kan alleen een recept in het Frans schrijven."
UNIM test of de AI echt kan koken met alle ingrediënten en het in alle vormen kan serveren.

3. De Nieuwe Scorebord (UNIM EVALUATION SUITE)

Omdat het antwoord van een AI niet meer alleen maar "goed" of "fout" is (zoals bij een meerkeuzevraag), hebben ze een nieuw scorebord nodig. Ze kijken naar drie dingen:

  1. Betekenis & Kwaliteit: Is het verhaal logisch? En ziet de gegenereerde video er goed uit, of is het wazig?
  2. Structuur: Als de AI gevraagd werd om 3 foto's en 1 geluid te maken, heeft hij dan precies 3 foto's en 1 geluid geleverd? Of heeft hij er 2 foto's vergeten en 1 extra geluid toegevoegd? (Dit is als een bakker die beloofde 3 taarten te bakken, maar er 4 bracht en 1 vergeten was).
  3. Samenhang: Klinkt het verhaal als één geheel? Of is het alsof iemand een tekst leest terwijl er een totaal andere video afspelt? De AI moet zorgen dat tekst, beeld en geluid perfect op elkaar aansluiten.

4. De Nieuwe Ster: UNIMA

De auteurs hebben niet alleen een examen bedacht, maar ook een nieuwe "student" die dit examen gaat doen: UNIMA.

  • Hoe werkt het? UNIMA is geen simpele robot die direct antwoordt. Het werkt als een detective met een team.
    • Stap 1: Het luistert naar alle inputs (video, geluid, tekst) en maakt een samenvatting.
    • Stap 2: Het denkt na: "Moet ik hier rekenen? Moet ik code schrijven?" Als ja, dan roept het een speciaal gereedschap (een rekenmachine of programmeur) in.
    • Stap 3: Het maakt een strikt plan: "Ik ga nu een video maken, dan een tekst, dan een geluid."
    • Stap 4: Een controleur kijkt of het plan klopt voordat het antwoord wordt gegeven. Als er een foutje is, gaat het terug naar stap 1 en corrigeert het.

De Analogie:
Stel je voor dat je een film regisseur bent.

  • De oude AI's waren als een regisseur die direct de camera aanzet en hoopt dat het goed komt. Vaak is het resultaat rommelig.
  • UNIMA is als een regisseur die eerst een script schrijft, een storyboard tekent, de acteurs instrueert, en dan pas de camera start. En als er een foutje in het script staat, stopt hij en corrigeert hij het voordat hij verder draait.

5. Wat leerden we?

Toen ze de huidige slimme AI's (zoals AnyGPT, NExT-GPT) op dit nieuwe examen UNIM legden, bleek het ontzettend moeilijk.

  • De meeste bestaande AI's faalden. Ze konden de complexe mix van video, audio en code niet goed samenbrengen. Ze vergeten vaak instructies of leveren het verkeerde formaat op.
  • UNIMA deed het veel beter, maar zelfs die was niet perfect. Het bewijst dat we nog een lange weg te gaan hebben voordat AI's echt "algemeen slim" zijn in deze gemengde wereld.

Conclusie

Deze paper zegt eigenlijk: "We hebben een nieuwe, veel moeilijkere test bedacht voor AI, omdat de wereld niet uit losse tekst en foto's bestaat, maar uit een wirwar van geluid, beeld en data. En we hebben een nieuwe, slimmere manier bedacht om AI's te laten denken en plannen, zodat ze deze test kunnen halen."

Het is de eerste stap naar een AI-assistent die echt mee kan denken in onze chaotische, multimodale wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →