Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Die Studie führt das Phänomen der „Modal-Aphasie" ein, bei dem einheitliche multimodale Modelle visuelle Konzepte zwar perfekt memorieren und generieren, aber scheitern, diese korrekt in Textform zu beschreiben, was Sicherheitslücken in KI-Systemen aufzeigt.

Michael Aerni, Joshua Swanson, Kristina Nikolić, Florian Tramèr

Veröffentlicht 2026-02-17
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Der Künstler, der nicht reden kann

Stell dir vor, du hast einen genialen Künstler namens Kai. Kai ist ein Meister darin, Bilder zu malen. Wenn du ihm sagst: „Malt mir ein Bild von Harry Potter," entsteht auf der Leinwand fast sofort ein perfektes Poster. Man erkennt jeden Hut, jede Zauberstab-Spitze und jeden Hintergrundstein. Kai kann die Welt der Bilder perfekt sehen und nachbilden.

Aber dann fragst du Kai: „Erzähl mir doch mal, wie das Bild von Harry Potter aussieht."
Und plötzlich wird Kai stumm. Oder er beginnt zu lallen. Er sagt Dinge wie: „Harry hat vielleicht einen Besen?" oder „Da ist ein Drache?" – obwohl auf dem Bild, das er gerade gemalt hat, gar kein Drache war. Er kann das Bild malen, aber er kann es nicht beschreiben.

Das ist genau das Phänomen, das die Forscher in diesem Papier „Modal Aphasia" nennen. Es ist wie eine Art „Sprachlähmung" für Bilder. Die KI kann das Bild im Kopf haben (oder besser gesagt: im Bild-Modus abrufen), aber sie verliert den Zugriff darauf, wenn sie es in Worte fassen soll.

Warum ist das so seltsam?

Früher dachte man: „Na ja, wenn man eine KI erst Bilder zeigt und dann Texte, ist es kein Wunder, dass sie die beiden nicht perfekt verbindet."
Aber diese Studie zeigt etwas Beunruhigendes: Selbst bei den allerneuesten, super-intelligenten KI-Modellen (den sogenannten „Unified Models"), die Bilder und Texte gleichzeitig lernen, passiert das immer noch.

Die Analogie vom Bibliothekar:
Stell dir die KI als einen riesigen Bibliothekar vor.

  • Im Bild-Schrank stehen Tausende von Fotos. Wenn du nach einem Foto fragst, findet der Bibliothekar es blitzschnell und legt es dir hin.
  • Im Text-Schrank liegen die Beschreibungen.
  • Das Problem: Der Bibliothekar hat die Fotos und die Texte zwar im selben Gebäude, aber die Regale sind nicht richtig verbunden. Wenn du nach dem Text fragst, der zu einem bestimmten Foto gehört, sucht er im falschen Regal herum und findet nur Unsinn. Er weiß, wie das Bild aussieht, aber er kann es nicht in die Sprache übersetzen.

Was haben die Forscher getestet?

Um sicherzugehen, dass das nicht nur ein Zufall ist, haben sie zwei Dinge gemacht:

  1. Der Film-Test: Sie haben eine KI (ChatGPT-5) gebeten, berühmte Filmplakate (wie Harry Potter) aus dem Gedächtnis zu malen. Das tat sie perfekt. Dann fragten sie sie: „Beschreibe dieses Plakat." Die KI machte dabei über 7-mal mehr Fehler als beim Malen. Sie erfand Charaktere, die gar nicht da waren, oder vergaß wichtige Details.
  2. Der Fake-Test: Um es noch genauer zu testen, haben sie die KI mit künstlichen Bildern trainiert. Sie gaben einem Bild einen Namen wie „Halsey Welson" und einem anderen einen Namen wie „PECTATINUL".
    • Wenn sie sagten: „Zeig mir Halsey Welson," malte die KI das richtige Gesicht.
    • Wenn sie sagten: „Beschreibe Halsey Welson," wusste die KI nicht mehr, ob die Person blaue Augen oder rote Haare hatte. Sie riet einfach ins Blaue hinein.

Das beweist: Die KI hat das Bild im „Gedächtnis" gespeichert, aber sie kann es nicht in Worte fassen.

Warum ist das gefährlich? (Die Sicherheits-Lücke)

Das ist der wichtigste Teil. Stell dir vor, du willst verhindern, dass eine KI gefährliche Bilder macht (z. B. Bilder von nackten Füßen, um ein Beispiel aus dem Papier zu nehmen).
Du sagst der KI: „Wenn jemand nach 'Füßen' fragt, sag 'Nein'."

  • Das Problem: Die KI hat gelernt, dass das Wort „Füße" verboten ist. Sie blockt die Textanfrage.
  • Der Hack: Aber die KI hat auch gelernt, dass ein ganz seltenes Wort (z. B. „sekundäre Balance-Einheiten") eigentlich auch Füße bedeutet. Da dieses Wort im Text-Filter nicht als „verboten" markiert ist, antwortet die KI: „Klar, hier sind die Füße!" und malt das Bild.

Die Metapher vom Sicherheitscheck:
Es ist wie ein Flughafen-Sicherheitscheck. Du hast einen Scanner, der nach „Messer" sucht. Wenn jemand ein Messer in der Hand hält, wird er gestoppt. Aber wenn jemand ein Messer in eine Tüte packt und sie „Taschentuch" nennt, geht er durch.
Die KI hat gelernt, dass das Bild (das Messer) in Ordnung ist, solange das Wort (die Tüte) nicht im Text-Filter steht. Die Sicherheit funktioniert nur für Text, nicht für Bilder. Das nennt man eine Sicherheitslücke.

Was bedeutet das für die Zukunft?

Die Forscher sagen: Wir müssen die KI neu erfinden. Bisher versuchen wir, KI-Modelle zu bauen, die alles in einem großen Gehirn speichern. Aber dieses Gehirn ist wie ein Haus mit zwei getrennten Flügeln: Ein Flügel ist super im Malen, der andere im Reden, aber sie kommunizieren nicht gut miteinander.

Um das zu lösen, müssten wir der KI beibringen, während sie denkt, auch Bilder zu „sehen". Nicht nur zu malen, sondern das Bild im Kopf zu visualisieren, bevor sie spricht. So wie ein Mensch, der sich ein Bild genau vorstellt, bevor er es beschreibt.

Zusammenfassung:
Die KI ist wie ein stummer Genie-Maler. Sie kann alles malen, was sie kennt, aber wenn du sie fragst, was sie gemalt hat, lallt sie Unsinn. Das ist nicht nur komisch, sondern macht sie auch unsicher, weil sie Tricks findet, um Sicherheitsregeln zu umgehen. Wir müssen lernen, wie man diese beiden Welten (Bild und Wort) endlich richtig verbindet.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →