World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Deze studie toont aan dat statische woordembeddings, die zijn gebaseerd op co-occurrence-statistieken, reeds aanzienlijke ruimtelijke en temporele structuren bevatten, wat aangeeft dat de herwinbaarheid van wereldkennis uit LLM-verborgen toestanden niet noodzakelijk wijst op geavanceerde wereldmodellen maar eerder op de rijke structuur die al in de tekst zelf aanwezig is.

Elan Barenholtz

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt, niet met boeken die mensen hebben geschreven om kennis over de wereld te geven, maar met alle boeken, kranten en artikelen die ooit op internet zijn gepubliceerd.

In deze bibliotheek staan woorden niet alleen op een rij; ze vormen een enorm, driedimensionaal web. Woorden die vaak samen voorkomen, zitten dicht bij elkaar in dit web. Woorden die nooit samen voorkomen, zitten ver uit elkaar.

Dit is wat statistische woordmodellen (zoals GloVe en Word2Vec) doen: ze kijken alleen naar dit web van "wie komt vaak samen met wie?" en maken daar een kaart van. Ze weten niets over de echte wereld, ze hebben geen GPS, geen kalender en ze hebben nooit een schoolboek gelezen. Ze kijken alleen naar de statistieken van taal.

Het Grote Misverstand

Recente studies over slimme AI's (zoals de grote taalmodellen die je nu gebruikt) hebben gezegd: "Kijk! Als we deze AI's vragen naar de locatie van een stad of het geboortejaar van een persoon, kunnen ze dat precies voorspellen. Dit betekent dat deze AI's een intern 'wereldmodel' hebben opgebouwd. Ze begrijpen de ruimte en de tijd!"

De auteur van dit paper, Elan Barenholtz, zegt echter: "Wacht even. Laten we eerst kijken of die informatie al in de bibliotheek zelf zit, voordat de AI überhaupt iets 'leert'."

Het Experiment: De Simpele Kaartmaker

De auteur pakt twee heel simpele, oude modellen (die alleen naar woordstatistieken kijken) en probeert eruit te halen:

  1. Waar liggen steden? (Breedtegraad, lengtegraad, temperatuur).
  2. Wanneer leefden historische figuren? (Geboortejaar).

Het verrassende resultaat:
Zelfs deze simpele modellen, die alleen kijken naar welke woorden vaak samen voorkomen, kunnen deze informatie met een hoge nauwkeurigheid voorspellen!

  • Ze kunnen een stad op de kaart plaatsen (bijvoorbeeld: Parijs ligt in het noorden, Cairo in het zuiden).
  • Ze kunnen de temperatuur van een stad raden (bijvoorbeeld: "ijs" en "skiën" komen vaak voor bij koude steden, "krokodil" en "kokosnoot" bij warme steden).
  • Ze kunnen het tijdperk van een persoon schatten (oudheid vs. moderne tijd).

De Magische Analogie: De Krant als Wereldkaart

Stel je voor dat je een krant leest.

  • Als je leest over "ijs", "pool", "skiën" en "winter", dan lees je waarschijnlijk over landen in het noorden.
  • Als je leest over "zand", "zon", "krokodil" en "dengue", dan lees je waarschijnlijk over landen in de tropen.

De simpele modellen zien dit patroon duizenden keren terug. Ze weten niet wat "ijs" is, maar ze weten wel dat het woord "ijs" vaak samenkomt met woorden die verwijzen naar het noorden. Door deze patronen te combineren, ontstaat er onbewust een kaart in het model.

Het is alsof je een enorme puzzel hebt waarbij je alleen de randjes (de woorden) ziet, maar door te kijken welke stukjes vaak naast elkaar liggen, kun je de hele afbeelding (de wereld) reconstrueren zonder dat je ooit de afbeelding zelf hebt gezien.

Wat betekent dit voor de "Slimme" AI?

De grote AI's (LLMs) doen dit ook, en ze doen het zelfs nog beter. Maar dit paper zegt: "Niet te snel juichen."

Als een simpele statistische kaartmaker (die alleen naar woorden kijkt) al een redelijke kaart van de wereld kan maken, dan betekent het dat de taal zelf al vol zit met informatie over de wereld.

De conclusie is niet dat de slimme AI's dom zijn, maar dat we de kracht van taal onderschatten. Taal is niet zomaar een laagje symbolen bovenop de wereld; taal is een dicht geweven tapijt van de wereld. Als je genoeg tekst hebt, zit de geografie, de geschiedenis en het klimaat al verpakt in de manier waarop we woorden gebruiken.

De Belangrijkste Les

Het feit dat je uit een AI kunt halen dat "Parijs in Frankrijk ligt" of dat "Homerus oud is", is geen bewijs dat de AI een bewust wereldmodel heeft gebouwd. Het kan gewoon zijn dat de AI de statistische patronen uit de tekst heeft overgenomen.

Het is alsof je een spiegel ziet die een landschap weerspiegelt. Als je in de spiegel kijkt en een berg ziet, betekent dat niet dat de spiegel zelf een berg heeft "bedacht" of "begrepen". Het betekent alleen dat de spiegel het landschap heel goed weerspiegelt.

Kortom:
De wereld zit al in de woorden. We hoeven niet te denken dat AI's magische wereldmodellen hebben gebouwd; soms is het gewoon dat de taal zelf al zo rijk is aan informatie, dat zelfs de simpelste rekenmachine die naar woorden kijkt, de wereld kan "zien".