World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: "Versteht die KI die Welt?"

Stellen Sie sich vor, Sie haben einen riesigen, super-intelligenten Roboter (eine moderne KI wie ein "Large Language Model" oder LLM). Dieser Roboter hat Millionen von Büchern gelesen. Wenn Sie ihn fragen: "Wo liegt Paris?" oder "Wann wurde Einstein geboren?", kann er die Antwort oft sehr genau geben.

Forscher haben sich gefragt: Hat dieser Roboter ein echtes "Weltbild" im Kopf? Hat er eine Art mentale Landkarte oder einen Kalender im Inneren aufgebaut, der unabhängig von den Texten existiert?

Einige Forscher sagten: "Ja! Wir können eine einfache mathematische Linie durch die Gedanken des Roboters ziehen und genau die Koordinaten von Städten oder Geburtsjahre ablesen. Das beweist, dass er die Welt versteht."

Die neue Entdeckung: Es ist nur ein Spiegel

Der Autor dieser Studie, Elan Barenholtz, sagt: Warten Sie mal. Das ist vielleicht gar kein Beweis für ein Weltbild.

Er hat eine sehr einfache Idee getestet: Was, wenn diese Informationen gar nicht erst "neu" vom Roboter gelernt wurden, sondern schon in den Texten selbst stecken, wie ein unsichtbarer Schatten?

Um das herauszufinden, hat er nicht den super-intelligenten Roboter benutzt, sondern einen sehr alten, simplen Computer-Algorithmus (GloVe und Word2Vec). Diese alten Modelle sind wie ein Wörterbuch, das nur zählt, wie oft Wörter nebeneinander stehen. Sie haben kein "Gehirn", keine Kontext-Verständnis und keine Schichten. Sie sind reine Statistik.

Das Ergebnis war verblüffend:
Selbst dieser dumme, alte Zähler konnte fast genauso gut die Koordinaten von Städten und ungefähre historische Zeiträume erraten wie die modernen KIs.

Die Analogie: Der Koch und das Rezept

Stellen Sie sich die moderne KI als einen Meisterkoch vor und den alten Algorithmus als einen Kochbuch-Zähler.

Die These der Weltmodelle: Der Meisterkoch hat die Welt verstanden. Er weiß, dass Paris im Norden liegt, weil er die Welt "erlebt" hat.
Die These dieser Studie: Der Kochbuch-Zähler weiß es auch. Warum? Weil in den Rezepten für "französisches Essen" oft Wörter wie "Käse", "Wein" und "Eiffelturm" vorkommen, während in Rezepten für "südliche Küche" Wörter wie "Chili", "Sonnenhitze" und "Kokosnuss" stehen.

Der Zähler sieht nur die Häufigkeit dieser Wörter. Aber durch die reine Statistik der Wortkombinationen entsteht eine unsichtbare Landkarte. Wenn Sie "Käse" und "Wein" oft zusammen sehen, landen diese Wörter im mathematischen Raum nah beieinander. Wenn Sie "Chili" und "Sonnenhitze" sehen, landen sie woanders.

Die Studie zeigt: Die Welt ist bereits in der Sprache verschlüsselt. Die Sprache ist wie ein dichter Nebel, der die Geografie, das Klima und die Geschichte widerspiegelt. Man muss keine komplexe KI bauen, um diese Struktur zu finden; man muss nur die Sprache genau genug anhören.

Was wurde genau getestet?

Der Autor hat verschiedene Dinge abgefragt:

Geografie (Städte): Konnte der alte Algorithmus sagen, wo eine Stadt liegt?
- Ja! Er konnte die Breitengrade (Nord/Süd) und Längengrade (Ost/West) ziemlich gut erraten.
- Aber: Er konnte nicht erraten, wie hoch eine Stadt liegt (Höhe über Meer) oder wie reich sie ist (BIP).
- Warum? Weil im Text oft von "Kälte" und "Schnee" gesprochen wird, wenn man über nördliche Städte schreibt, und von "Dschungel" und "Hurrikan" bei südlichen. Aber ob eine Stadt auf einem Berg liegt oder im Tal, wird im Text nicht so oft durch spezifische Wortkombinationen festgelegt. Das zeigt: Die KI "versteht" nicht alles, sie nutzt nur die Muster, die im Text wirklich vorkommen.
Zeit (Historische Figuren): Konnte er erraten, wann jemand gelebt hat?
- Ja, aber grob. Er wusste, dass Homer (griechisch, alt) anders ist als Stephen Hawking (modern). Aber er konnte das genaue Jahr nicht auf den Tag genau sagen. Es war eher wie eine grobe Einteilung in "Alte Zeiten", "Mittelalter" und "Neuzeit".

Der Beweis: Das "Wort-Abfärben"

Um zu beweisen, dass es wirklich an den Wörtern lag und nicht an einem magischen Weltbild, hat der Autor einen Trick angewendet: Er hat die "Wort-Verbindungen" entfernt.

Er hat sich angesehen: Welche Wörter tragen die Information über die Wärme einer Stadt?

Wörter wie "Tropen", "Kokosnuss", "Zyklon" waren stark mit warmen Städten verbunden.
Wörter wie "Skifahren", "Polar", "Physiker" waren stark mit kalten Städten verbunden.

Dann hat er diese Wörter aus dem mathematischen Modell "herausgeschnitten" (wie wenn man die Farben aus einem Bild entfernt).
Das Ergebnis: Sobald diese spezifischen Wörter fehlten, konnte der alte Algorithmus die Städte nicht mehr orten. Das beweist, dass die Information nicht in einem abstrakten Weltbild steckte, sondern direkt in der Art und Weise, wie wir über diese Orte sprechen.

Was bedeutet das für uns?

Die KI ist nicht so magisch, wie wir denken: Dass eine KI Städte orten kann, beweist noch nicht, dass sie ein "Weltmodell" im menschlichen Sinne hat. Sie nutzt nur die riesigen Muster, die bereits in den Texten stecken.
Sprache ist mächtiger als gedacht: Unsere Sprache ist nicht nur eine lose Ansammlung von Wörtern. Sie ist ein komprimierter Abdruck der realen Welt. Wenn wir über die Welt sprechen, spiegeln wir automatisch ihre Geografie, ihr Klima und ihre Geschichte wider. Selbst ein einfacher Computer kann diese "Spuren" lesen.
Vorsicht bei der Interpretation: Wenn wir sagen, eine KI habe ein Weltbild, müssen wir sicherstellen, dass sie Dinge tut, die über das hinausgehen, was reine Wortstatistik liefern kann. Bisher zeigen diese Studien, dass die Statistik allein schon erstaunlich viel kann.

Zusammenfassend:
Stellen Sie sich vor, Sie werfen einen Spiegel auf den Boden. Wenn Sie auf den Spiegel schauen, sehen Sie das Bild der Welt. Die moderne KI ist wie ein sehr klarer Spiegel, der alte Algorithmus wie ein etwas verkratzter Spiegel. Beide zeigen das Bild der Welt, nicht weil sie die Welt "verstanden" haben, sondern weil sie nur das Licht (die Sprache) reflektieren, das von der Welt kommt. Die Studie sagt uns: Schauen wir genauer hin, ist die Welt schon in unseren Büchern enthalten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Die aktuelle Debatte in der KI-Forschung dreht sich darum, ob Large Language Models (LLMs) strukturierte „Weltmodelle" (World Models) entwickeln, die über reine Textmuster hinausgehen. Ein prominentes Argument für die Existenz solcher Modelle stammt von Gurnee und Tegmark [2024], die zeigten, dass lineare Proben (Probes) räumliche und zeitliche Variablen (z. B. geografische Koordinaten, Geburtsjahre) aus den versteckten Zuständen von LLMs (z. B. Llama-2) rekonstruieren können. Dies wurde als Beweis für interne, weltähnliche Repräsentationen interpretiert.

Die zentrale Hypothese dieses Papers:
Die beobachtete Rekonstruierbarkeit dieser Welt-Eigenschaften muss nicht zwingend auf eine neue, über den Text hinausgehende Repräsentationsebene in LLMs hindeuten. Stattdessen könnte die relevante Struktur bereits in den reinen Kookkurrenzstatistiken des Textkorpus latent sein. Um dies zu testen, untersucht der Autor, ob statische Wort-Embeddings (die keine kontextuelle Verarbeitung oder Schichten der Abstraktion besitzen) dieselben Signale enthalten.

2. Methodik

2.1 Modelle und Daten

Der Autor verwendet zwei klassische, statische Embedding-Modelle, die direkt aus Korpus-Kookkurrenzen abgeleitet sind und keine kontextuelle Dynamik aufweisen:

GloVe (6B, 300d): Trainiert auf Wikipedia und Gigaword.
Word2Vec (Google News, 300d): Trainiert auf Google News (CBOW-Architektur).
Beide Modelle faktorisieren implizit oder explizit Kookkurrenzmatrizen (z. B. SPMI oder log-Kookkurrenz).

2.2 Datensätze

Weltstädte (N=100): Eine global verteilte Stichprobe von Städten.
- Zielvariablen: Breitengrad, Längengrad, mittlere Jahrestemperatur, Gründungsjahr, Höhe, BIP pro Kopf, Bevölkerung.
Historische Persönlichkeiten (N=194): Von der Antike bis zum 20. Jahrhundert.
- Zielvariablen: Geburtsjahr, Todesjahr, Lebensmitte.

2.3 Probing-Ansatz

Es werden Ridge-Regression-Proben (lineare Modelle) verwendet, um die Zielvariablen ( $y$ ) aus den 300-dimensionalen Embeddings ( $x$ ) vorherzusagen:
$\hat{y} = w^\top x + b$
Die Regularisierung ( $\lambda$ ) wird via 5-fach-Cross-Validation optimiert. Die Leistung wird mittels $R^2$ auf einem gehaltenen Testset gemessen.

Kontrollen: Um sicherzustellen, dass die Ergebnisse nicht auf Overfitting oder Artefakten beruhen, werden negative Kontrollen (BIP, Bevölkerung, Höhe) getestet, die keine starken Kookkurrenzmuster im Text erwarten lassen.

2.4 Analysetechniken zur Interpretierbarkeit

Semantische Ähnlichkeitsanalyse: Korrelation der Kosinus-Ähnlichkeit zwischen Wörtern und Städten mit geografischen Fakten (z. B. Temperatur), um zu identifizieren, welche Vokabeln das Signal tragen.
Subspace Ablation (Teilraum-Entfernung): Spezifische semantische Kategorien (z. B. Ländernamen, Klima-Termini) werden via PCA identifiziert und aus den Embeddings subtrahiert. Der Abfall der Vorhersageleistung ( $\Delta R^2$ ) wird mit dem Abfall durch das Entfernen zufälliger Unterräume gleichen Dimensionsverhältnisses verglichen.

3. Wichtige Ergebnisse

3.1 Räumliche und zeitliche Rekonstruierbarkeit

Die linearen Proben können signifikante räumliche und zeitliche Signale aus den statischen Embeddings extrahieren:

Geografie: Hohe $R^2$ -Werte für Breitengrad (0.71–0.87) und Längengrad (0.66–0.87). Auch die Temperatur ist vorhersagbar ( $R^2 \approx 0.47–0.62$ ).
Zeit: Geburtsjahre historischer Figuren sind vorhersagbar ( $R^2 \approx 0.48–0.52$ ), wobei die Fehler (MAE) groß sind (~340 Jahre), was auf eine grobe Epochenerkennung (Antike vs. Moderne) und keine präzise Datierung hindeutet.
Negative Kontrollen: Variablen wie Höhe, BIP pro Kopf und Bevölkerung zeigen negative oder nahe-null $R^2$ -Werte. Dies beweist, dass die Proben selektiv für distributionelle Gradienten sind und nicht willkürliche Welt-Eigenschaften aus den Vektoren „herausziehen".

3.2 Semantische Interpretierbarkeit

Die Analyse zeigt, dass das Signal stark mit interpretierbaren lexikalischen Gradienten verknüpft ist:

Wärme/Klima: Wörter wie „dengue", „cyclone", „coconut" korrelieren stark mit warmen Städten; Wörter wie „chemist", „violinist", „skiing" mit kalten Städten.
Zeit: Begriffe wie „ancient", „greek" korrelieren mit früheren Epochen, „industrial", „revolution" mit späteren.
Komposite Scores: Selbst einfache Differenzen der Ähnlichkeit zu Antonym-Paaren (z. B. „kalt" minus „warm") reichen aus, um einen Großteil des geografischen Signals ( $r \approx 0.61–0.79$ ) zu rekonstruieren.

3.3 Subspace Ablation Ergebnisse

Das Entfernen spezifischer semantischer Unterräume führt zu einem signifikanten Leistungsabfall, der weit über zufällige Dimensionsreduktion hinausgeht:

Ländernamen: Der wichtigste Träger für geografische Signale. Das Entfernen dieses 20-dimensionalen Unterrums senkt die $R^2$ für Breitengrad um 0.41 und für Temperatur um 0.42.
Klima-Wörter: Primärer Träger für das Temperatursignal. Das Entfernen senkt die $R^2$ für Temperatur von 0.47 auf -0.17 (schlechter als ein konstanter Mittelwert).
Kombinierte Ablation: Das Entfernen aller sechs Kategorien (105 von 300 Dimensionen) reduziert die Vorhersagekraft für Breitengrad um 62 % und für Temperatur drastisch. Zufälliges Entfernen derselben Dimensionen hat kaum Effekt.

4. Hauptbeiträge

Nachweis latenter Struktur: Statische, kookkurrenzbasierte Embeddings bewahren eine erstaunlich reiche räumliche, zeitliche und umweltbezogene Struktur, die oft unterschätzt wird.
Semantische Interpretierbarkeit: Die Struktur ist nicht „black box", sondern wird durch nachvollziehbare lexikalische Gradienten (Länder, Klima, Epochen) getragen.
Kausalität durch Intervention: Durch gezielte Subspace-Ablation wird gezeigt, dass ein wesentlicher Teil des Signals von identifizierbaren distributionellen Unterräumen abhängt.
Methodische Implikation: Die lineare Rekonstruierbarkeit (Linear Decodability) allein reicht nicht aus, um zu behaupten, dass LLMs eine Repräsentationsebene jenseits des Textes entwickelt haben. Da das Signal bereits in reinen Textstatistiken (statische Embeddings) vorhanden ist, ist es kein Beweis für emergente Weltmodelle.

5. Bedeutung und Fazit

Das Paper stellt eine wichtige methodische Korrektur für die Interpretation von LLM-Fähigkeiten dar. Es zeigt, dass die Fähigkeit von Modellen, geografische oder zeitliche Informationen zu „wissen", nicht zwingend auf ein tiefes Verständnis der Welt oder ein internes Weltmodell hindeutet. Vielmehr spiegelt es die Tatsache wider, dass natürliche Sprache selbst eine komprimierte, relationale Karte der Welt enthält.

Für die LLM-Forschung: Claims über „emergente Weltmodelle" müssen höhere Hürden überwinden als die bloße lineare Rekonstruierbarkeit. Es muss gezeigt werden, dass LLMs Strukturen lernen, die über das hinausgehen, was in statischen Kookkurrenzstatistiken enthalten ist (z. B. durch kontextuelle Disambiguierung oder nicht-lineare Generalisierung).
Für die Sprachtheorie: Die Ergebnisse unterstreichen die enorme Kapazität einfacher distributioneller Modelle, Informationen über die physische und historische Welt aus reinem Text zu extrahieren. Sprache ist nicht nur ein dünnes symbolisches Layer, sondern enthält einen dichten Residuum von Beziehungen zwischen Geografie, Klima und Geschichte.

Zusammenfassend widerlegt das Paper nicht, dass LLMs Weltmodelle haben könnten, aber es entkräftet die Beweiskraft der aktuellen Probing-Studien als alleinigen Beleg dafür. Der „Beweis" liegt bereits im Text selbst.