Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Die Studie zeigt, dass Multimodale Large Language Models (MLLMs) zwar durch Chain-of-Thought-Prompting und Feinabstimmung verbessert werden können, aber dennoch eine signifikante Lücke bei der optimalen Zusammensetzung von Fähigkeiten über verschiedene Modalitäten hinweg aufweisen.

Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum Multimodale KI-Modelle noch nicht perfekt zusammenarbeiten – Eine einfache Erklärung

Stellen Sie sich vor, Sie haben einen sehr klugen Assistenten, der zwei verschiedene Gehirnteile hat:

  1. Das „Seh-Gehirn": Es kann Bilder lesen, Objekte erkennen und Texte auf Bildern entziffern (wie ein sehr guter Fotograf oder ein Scanner).
  2. Das „Denk-Gehirn": Es kann rechnen, logisch schlussfolgern und Fragen beantworten (wie ein Professor für Mathematik oder Philosophie).

In diesem Papier untersuchen die Forscher, wie gut diese beiden Gehirnteile zusammenarbeiten, wenn sie eine Aufgabe lösen müssen, die beides erfordert. Die gute Nachricht: Jeder Teil für sich ist oft sehr stark. Die schlechte Nachricht: Wenn sie zusammenarbeiten müssen, stolpern sie oft über die eigenen Füße.

Hier ist die Geschichte, wie sie es herausgefunden haben:

1. Das Experiment: Der „Zwei-Schritte-Test"

Die Forscher stellten drei einfache Aufgaben, die für einen Menschen kinderleicht wären, aber für die KI eine Herausforderung darstellen:

  • Aufgabe A (Der Text-Rätsel-Krimi): Ein Mathe-Problem ist auf ein Bild gemalt (z. B. „Wie viel ist 7 + 5?"). Die KI muss erst den Text aus dem Bild „lesen" (Seh-Gehirn) und dann die Rechnung im Kopf machen (Denk-Gehirn).
  • Aufgabe B (Der Zähler): Zeigen Sie der KI ein Bild mit vielen Orangen. Sie soll zählen, wie viele es sind. Zuerst muss sie die Orangen finden (Seh-Gehirn) und dann die Zahl im Kopf zusammenzählen (Denk-Gehirn).
  • Aufgabe C (Das Kartenspiel): Zeigen Sie der KI vier Karten. Sie soll sie sortieren oder den Gesamtwert berechnen. Dazu muss sie die Karten erkennen (Seh-Gehirn) und dann die Regeln anwenden (Denk-Gehirn).

Der Trick des Experiments:
Die Forscher verglichen zwei Methoden:

  1. Der direkte Weg: Die KI bekommt das Bild und die Frage und soll es einfach „auf einen Schlag" lösen.
  2. Der gestaffelte Weg (Cascaded): Die Forscher zwingen die KI, Schritt für Schritt zu arbeiten. Zuerst sagt sie: „Ich sehe hier die Zahlen 7 und 5." Dann sagt sie: „Okay, 7 plus 5 ist 12."

Das Ergebnis:
Überraschenderweise war der gestaffelte Weg fast immer besser. Das bedeutet: Die KI kann die einzelnen Teile (Sehen und Rechnen) gut, aber sie scheitert daran, diese Teile nahtlos zu einer einzigen Lösung zu verbinden. Es ist, als ob ein Musiker das Klavier perfekt spielen kann und ein anderer die Geige, aber wenn sie ein Duett spielen sollen, passen sie nicht zusammen.

2. Warum ist das so? (Die Metapher vom Dolmetscher)

Stellen Sie sich vor, das „Seh-Gehirn" ist ein Dolmetscher, der eine Sprache spricht, die das „Denk-Gehirn" nicht versteht.

  • Wenn die KI das Bild sieht, versucht sie, den Text zu lesen. Aber manchmal macht sie Fehler (z. B. liest sie eine „3" als eine „8").
  • Im direkten Weg versucht die KI, den Text zu lesen und gleichzeitig zu rechnen. Wenn sie beim Lesen einen Fehler macht, führt das zu einem falschen Ergebnis, und sie merkt es nicht.
  • Im gestaffelten Weg wird der Fehler isoliert. Die KI sagt zuerst: „Ich lese hier eine 3." (Fehler passiert). Dann rechnet sie: „3 + 5 = 8". Da der Fehler schon passiert ist, ist das Ergebnis falsch, aber wir wissen wenigstens, wo das Problem lag.

Die Forscher fanden heraus, dass die KI oft den „Seh-Teil" nicht so genau macht, wie sie es müsste, bevor sie mit dem „Denk-Teil" beginnt. Sie versucht, beides gleichzeitig zu tun, und dabei geht die Präzision verloren.

3. Versuche, es zu reparieren

Die Forscher wollten wissen: „Können wir die KI dazu bringen, besser zusammenzuarbeiten?" Sie probierten zwei Methoden aus:

  • Methode 1: Der „Gedankenführer" (Chain-of-Thought):
    Sie gaben der KI eine spezielle Anweisung: „Zuerst lies den Text genau, schreibe ihn auf, und dann rechne."

    • Ergebnis: Das half etwas! Die KI wurde besser, weil sie gezwungen wurde, langsamer zu denken. Aber es war nicht perfekt. Es war wie ein Lehrer, der einem Schüler sagt: „Mach Schritt 1, dann Schritt 2." Der Schüler macht es besser, aber er ist immer noch nicht so gut wie jemand, der die Schritte von Hand getrennt macht. Außerdem muss man für jede neue Aufgabe einen neuen „Lehrer" (Prompt) erfinden, was sehr aufwendig ist.
  • Methode 2: Das „Spezialtraining" (Fine-Tuning):
    Sie trainierten die KI extra auf Aufgaben, bei denen Sehen und Rechnen kombiniert werden müssen.

    • Ergebnis: Auch das half! Die KI wurde besser darin, die Kombination zu verstehen. Aber selbst nach dem Training gab es immer noch eine Lücke. Die KI konnte die Kombination nicht so perfekt beherrschen wie die getrennten Schritte.

4. Was bedeutet das für die Zukunft?

Die Botschaft des Papiers ist klar: Multimodale KI-Modelle sind noch nicht so schlau, wie sie scheinen.

Sie können Bilder sehen und Texte lesen, aber wenn sie beides gleichzeitig nutzen müssen, um ein neues Problem zu lösen, hakt es. Es ist, als hätte man ein Auto mit einem sehr starken Motor und sehr guten Reifen, aber die Kupplung ist noch nicht perfekt eingestellt. Das Auto fährt, aber es ruckelt, wenn man schaltet.

Zusammenfassung für den Alltag:
Wenn Sie heute eine KI fragen: „Wie viele Äpfel sind auf diesem Bild und wie viel kosten sie zusammen?", wird die KI wahrscheinlich raten oder einen Fehler machen, weil sie die Zählung und die Rechnung nicht perfekt verknüpft. Sie ist noch nicht in der Lage, ihre eigenen Fähigkeiten so geschickt zu mischen, wie ein Mensch es tun würde.

Die Forscher hoffen, dass zukünftige Modelle lernen, diese „Kupplung" zu verbessern, damit sie nicht nur sehen und denken können, sondern auch tatsächlich verstehen, was sie sehen, und das sofort in eine Lösung umsetzen. Bis dahin müssen wir uns vielleicht noch mit ein paar Fehlern abfinden, wenn die KI komplexe Bilder analysieren soll.