A quantitative analysis of semantic information in deep representations of text and images

Diese Studie nutzt den Informationsungleichgewicht zur Analyse von DeepSeek-V3 und DinoV2 und zeigt, dass semantische Informationen über Sprachen und Modalitäten hinweg konvergieren, wobei die Vorhersagekraft stark von der Schichttiefe, der Modellgröße und der Sprachhierarchie abhängt, was darauf hindeutet, dass reine Skalierung effektiver sein kann als explizites multimodales Training.

Ursprüngliche Autoren: Santiago Acevedo, Andrea Mascaretti, Riccardo Rende, Matéo Mahaut, Marco Baroni, Alessandro Laio

Veröffentlicht 2026-03-19
📖 5 Min. Lesezeit🧠 Tiefgang

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben zwei verschiedene Übersetzer: einen, der aus dem Englischen ins Deutsche übersetzt, und einen anderen, der aus dem Deutschen ins Englische übersetzt. Oder noch besser: Stellen Sie sich vor, Sie haben zwei verschiedene Kameras, die dasselbe Bild aufnehmen, aber mit völlig unterschiedlicher Technik.

Die Frage, die sich die Forscher in diesem Papier stellen, ist: Verstehen diese verschiedenen Systeme die Welt auf die gleiche Weise? Wenn ein Computer ein Bild sieht und ein anderer Computer denselben Satz liest, landen die Informationen dann am Ende in einem ähnlichen „Gedankenraum"?

Hier ist die einfache Erklärung der Forschung, gespickt mit ein paar bildhaften Vergleichen:

1. Der „Informations-Ungleichgewicht"-Test (Die Waage der Vorhersage)

Normalerweise vergleichen Wissenschaftler zwei Dinge, indem sie schauen, wie ähnlich sie sind (wie zwei Fingerabdrücke, die fast gleich aussehen). Aber die Forscher wollten wissen: Wer kann den anderen besser vorhersagen?

Stellen Sie sich vor, Sie haben zwei Karten von derselben Stadt:

  • Karte A ist sehr detailliert und zeigt jede kleine Gasse.
  • Karte B ist etwas ungenauer und zeigt nur die Hauptstraßen.

Wenn Sie Karte A haben, können Sie leicht sagen, wo Sie auf Karte B sind (weil die Hauptstraßen da sind). Aber wenn Sie nur Karte B haben, können Sie nicht genau sagen, welche kleine Gasse auf Karte A gemeint ist. Das ist ein Ungleichgewicht.

Die Forscher nutzen eine spezielle mathematische Methode (die „Informations-Ungleichheit"), um genau dieses Ungleichgewicht zu messen. Sie fragen: „Wenn ich die Repräsentation (den inneren Gedankenzustand) von Modell X kenne, kann ich dann erraten, was in Modell Y passiert?"

2. Das Geheimnis der „Mitte" (Wo die Magie passiert)

Die Forscher haben riesige KI-Modelle (wie DeepSeek-V3) untersucht, die aus vielen Schichten bestehen – ähnlich wie ein mehrstöckiges Gebäude.

  • Die unteren Stockwerke (Eingang): Hier wird die Sprache noch sehr „buchstäblich" verarbeitet. Ein Wort wie „Bank" wird noch nicht als Möbelstück oder Finanzinstitut verstanden, sondern nur als Zeichenfolge.
  • Die oberen Stockwerke (Ausgang): Hier wird die Antwort generiert. Das Modell muss wieder spezifische Wörter auswählen, um den nächsten Satz zu bilden.
  • Das Erdgeschoss (Die Mitte): Hier passiert das Wunder! Die Forscher haben entdeckt, dass in den mittleren Schichten alle Sprachen und sogar Bilder und Texte auf eine gemeinsame Sprache „heruntergebrochen" werden.

Die Analogie: Stellen Sie sich vor, Sie und ein Freund sprechen verschiedene Sprachen. In den unteren Stockwerken reden Sie noch über die Grammatik und die Buchstaben. In den oberen Stockwerken planen Sie, was Sie als Nächstes sagen. Aber in der Mitte des Gebäudes treffen Sie sich auf einer neutralen Terrasse, wo Sie beide die gleiche Idee im Kopf haben, ohne an die Wörter zu denken. Das ist der Ort, an dem die KI die „wahre Bedeutung" speichert.

3. Das Englische ist der „Super-Sprecher"

Ein sehr interessanter Befund: Die englische Sprache scheint in diesen KI-Modellen eine Sonderrolle zu spielen.
Die Repräsentationen von englischen Sätzen sind oft besser darin, andere Sprachen vorherzusagen, als umgekehrt.

Warum? Englisch ist die „Hauptstraße" im Internet. Die KI hat viel mehr englische Texte gelernt als Texte in anderen Sprachen. Es ist, als ob ein Übersetzer, der 1000 Bücher auf Englisch gelesen hat, aber nur 10 auf Italienisch, die englische Version eines Satzes viel klarer versteht und besser in andere Sprachen übersetzen kann, als wenn er vom Italienischen ins Englische übersetzen müsste. Die englische Repräsentation ist einfach „reicher" an Informationen.

4. Bilder vs. Texte: Wer ist der bessere Vorhersager?

Die Forscher haben auch geschaut, wie KI Bilder und deren Beschreibungen (Texte) verarbeitet.

  • Überraschung: Zwei völlig unabhängig voneinander trainierte Modelle (eines für Bilder, eines für Text) verstehen sich oft besser als ein Modell, das extra dafür trainiert wurde, Bilder und Texte zu verbinden (wie CLIP).
  • Der Grund: Die Größe zählt mehr als das Training. Ein riesiges Modell, das nur Texte liest, und ein riesiges Modell, das nur Bilder sieht, haben so viel „Intelligenz" entwickelt, dass sie die Welt auf eine ähnliche Weise verstehen, auch ohne sich je gesehen zu haben. Es ist, als ob zwei Genies, die in verschiedenen Fächern studiert haben, am Ende dieselben tiefen Wahrheiten über das Universum entdecken, einfach weil sie beide so tiefgründig denken.

5. Nicht nur das letzte Wort zählt

Früher dachten viele, die Bedeutung eines Satzes stecke nur im letzten Wort (dem „End-Token"). Die Forscher haben aber herausgefunden, dass die Bedeutung über viele Wörter verteilt ist.
Die Analogie: Wenn Sie einen Satz lesen, ist die Bedeutung nicht nur im letzten Wort versteckt. Sie ist wie ein Puzzle, das über den ganzen Satz verteilt ist. Wenn man alle Wörter mittelt (zusammenfasst), bekommt man ein viel klareres Bild der Bedeutung, als wenn man sich nur auf das letzte Wort konzentriert.

Fazit: Was lernen wir daraus?

Die Studie zeigt uns, dass KI-Modelle, egal ob sie Bilder sehen oder Texte lesen, ob sie groß oder klein sind, alle auf eine gemeinsame Art und Weise die Welt verstehen. Sie bauen alle eine Art „Platonische Welt" auf, in der ähnliche Konzepte (wie ein Bild einer Katze und das Wort „Katze") im gleichen mentalen Raum landen.

Aber es gibt Unterschiede:

  1. Die Mitte ist heilig: Die tiefste Bedeutung liegt in der Mitte der Netzwerke.
  2. Größe ist König: Große Modelle verstehen sich besser als kleine, selbst wenn sie nicht speziell dafür trainiert wurden.
  3. Englisch hat den Vorteil: Wegen der riesigen Datenmenge ist Englisch in diesen Modellen oft der „Master-Schlüssel".

Zusammengefasst: KI-Modelle sind wie verschiedene Reiseführer, die unterschiedliche Routen nehmen, aber am Ende alle am selben geheimnisvollen Ort (der „Bedeutung") ankommen – wobei einige Führer (große Modelle, englische Sprache) den Weg etwas klarer beschreiben als andere.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →