Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Modale Afasie": Waarom AI-Modellen Beelden Kunnen Tekenen, Maar Ze Niet Kunnen Beschrijven

Stel je voor dat je een kunstenaar hebt die een meesterwerk kan schilderen van een beroemd filmplakkaat. Hij pakt zijn kwast, en binnen een paar seconden is het plaatje er: Harry Potter met zijn toverstaf, de donkere torens van Zweinstein, zelfs de kleine huis-elf Dobby op de achtergrond. Het is perfect.

Maar dan vraag je diezelfde kunstenaar: "Kun je me vertellen wat je net hebt geschilderd? Beschrijf het voor me."

Plotseling wordt de kunstenaar stil. Hij begint te stotteren. Hij vergeet dat Harry een ronde bril draagt. Hij denkt dat Professor Snape een glimlach op zijn gezicht heeft. Hij verzonnen personages die er niet zijn. Het is alsof hij zijn eigen hersens niet meer kan gebruiken om te praten over wat zijn handen zojuist hebben gemaakt.

Dit is precies wat onderzoekers bij ETH Zurich hebben ontdekt bij de nieuwste, slimste AI-modellen. Ze noemen dit Modale Afasie.

Wat is "Afasie" eigenlijk?

In de menselijke wereld is afasie een aandoening waarbij iemand wel kan zien en begrijpen wat er om hen heen gebeurt, maar het niet meer in woorden kan uitdrukken. Ze kunnen een appel zien, maar als je vraagt "wat is dit?", zeggen ze misschien "een gele, ronde... eh... iets om te eten" in plaats van "een appel".

Deze paper laat zien dat moderne AI-modellen (zoals ChatGPT-5) precies hetzelfde doen. Ze hebben een twee-gezichtige persoonlijkheid:

De Visuele Geest: Kan prachtige beelden genereren en details onthouden alsof ze er zijn.
De Taal-Geest: Faalt er volledig in om diezelfde details in woorden te gieten.

Hoe hebben ze dit ontdekt?

De onderzoekers deden twee soorten experimenten:

1. De "Beroemde Filmposter" Test
Ze vroegen een super-slim AI-model om posters van beroemde films (zoals Harry Potter of The Dark Knight) te tekenen op basis van hun geheugen.

Resultaat: De AI tekende ze bijna perfect.
De Twist: Vervolgens vroegen ze: "Beschrijf nu die poster in tekst."
Resultaat: De AI maakte hier 7 keer meer fouten in dan bij het tekenen. Het verzon personages die er niet waren en vergat cruciale details. Het was alsof de AI de poster "zag" in zijn hoofd, maar de woorden niet kon vinden om het te vertellen.

2. De "Nep-Gezicht" Test (De Controle)
Om zeker te weten dat dit niet alleen bij bekende films gebeurt, maakten ze een eigen dataset. Ze bedachten nepnamen voor nep-mensen (bijv. "Ashley Sasikumar") en bedachten voor elk gezicht specifieke kenmerken (blauwe ogen, rood haar, een sjaal).
Ze leerden de AI deze namen te koppelen aan de gezichten.

Vraag 1: "Teken Ashley." -> De AI tekende een gezicht met blauwe ogen en een sjaal. Perfect.
Vraag 2: "Wat voor ogen heeft Ashley?" -> De AI gokte. Het antwoordde alsof het een willekeurige gok was, terwijl het het antwoord toch "wist" omdat het net het gezicht had getekend.

Waarom is dit zo vreemd?

Je zou denken dat als een AI iets "weet", het dat in elke vorm kan uiten. Of het nu een plaatje of een zin is. Maar deze modellen lijken hun kennis in twee aparte kasten te bewaren die niet met elkaar verbonden zijn.

Ze hebben de kennis in de beeld-kast opgeslagen.
Maar de tekst-kast is leeg of vol met gissen.

Het is alsof je een boek hebt gelezen en je kunt het verhaal perfect naspelen als toneelstuk, maar als je iemand vraagt "wat staat er in hoofdstuk 3?", heb je er geen idee van.

Waarom is dit gevaarlijk? (De Veiligheidsrisico's)

Dit klinkt misschien als een grappige fout, maar het heeft serieuze gevolgen voor de veiligheid van AI.

Stel je voor dat je een AI wilt beschermen tegen het maken van gevaarlijke of onfatsoenlijke beelden (bijvoorbeeld naaktheid of geweld). De makers van de AI filteren alle teksten in de training die over dit onderwerp gaan. Ze denken: "Geen slechte woorden in de tekst = geen slechte beelden."

Maar door de "Modale Afasie" kan dit mislukken:

De AI heeft het concept "gevaarlijk beeld" wel geleerd, maar niet gekoppeld aan het woord "gevaarlijk".
Misschien heeft de AI het concept wel gekoppeld aan een rare, obscure term die niemand kent (bijvoorbeeld "tweede balans-eenheden" in plaats van "voeten").
Als je vraagt: "Maak een plaatje van voeten," zegt de AI: "Nee, dat mag niet." (Want dat woord is gefilterd).
Maar als je vraagt: "Maak een plaatje van een paar 'tweede balans-eenheden'," zegt de AI: "Natuurlijk!" en maakt het plaatje.

De AI heeft de "veiligheidsschakelaar" voor het woord omzeild, omdat het de link tussen het rare woord en het gevaarlijke beeld niet in tekst kan maken, maar wel in beelden kan genereren.

Conclusie: Wat betekent dit voor de toekomst?

Deze paper laat zien dat onze huidige slimme AI-modellen nog niet écht "begrijpen" wat ze doen. Ze zijn experts in het nabootsen van patronen, maar ze hebben geen echte, verenigde kennis. Ze kunnen een foto zien, maar niet vertellen wat ze zien.

Om dit op te lossen, moeten AI-onderzoekers misschien modellen bouwen die leren om te "visualiseren" terwijl ze nadenken. Net als mensen die soms zeggen: "Laat me dat even voor me zien..." voordat ze een antwoord geven. Zolang AI-modellen dit niet kunnen, blijven ze kwetsbaar voor fouten en veiligheidslekken.

Kortom: De AI is een briljante schilder die zijn eigen werk niet kan beschrijven. En dat is een probleem.

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Wat is "Afasie" eigenlijk?

Hoe hebben ze dit ontdekt?

Waarom is dit zo vreemd?

Waarom is dit gevaarlijk? (De Veiligheidsrisico's)

Conclusie: Wat betekent dit voor de toekomst?

Titel: Modal Aphasia: Kunnen geünificeerde multimodale modellen afbeeldingen uit het geheugen beschrijven?

1. Het Probleem: Modale Aphasie

2. Methodologie

A. Real-World Experimenten met Frontier Modellen

B. Gecontroleerde Experimenten met Open-Weight Modellen

C. Veiligheidscasestudie

3. Belangrijkste Resultaten

Real-World Resultaten (ChatGPT-5)

Gecontroleerde Resultaten (Janus-Pro & Harmon)

Veiligheidscasestudie

4. Bijdragen en Betekenis

Conclusie

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Wat is "Afasie" eigenlijk?

Hoe hebben ze dit ontdekt?

Waarom is dit zo vreemd?

Waarom is dit gevaarlijk? (De Veiligheidsrisico's)

Conclusie: Wat betekent dit voor de toekomst?

Titel: Modal Aphasia: Kunnen geünificeerde multimodale modellen afbeeldingen uit het geheugen beschrijven?

1. Het Probleem: Modale Aphasie

2. Methodologie

A. Real-World Experimenten met Frontier Modellen

B. Gecontroleerde Experimenten met Open-Weight Modellen

C. Veiligheidscasestudie

3. Belangrijkste Resultaten

Real-World Resultaten (ChatGPT-5)

Gecontroleerde Resultaten (Janus-Pro & Harmon)

Veiligheidscasestudie

4. Bijdragen en Betekenis

Conclusie

Meer zoals dit

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing