Quantifying and extending the coverage of spatial categorization data sets

Each language version is independently generated for its own context, not a direct translation.

Hoe AI ons helpt om de wereld in woorden te vangen: Een verhaal over ruimtelijke taal

Stel je voor dat je een enorme, lege kaart hebt. Deze kaart is niet van land en water, maar van ruimtelijke relaties: hoe we dingen ten opzichte van elkaar beschrijven. Is de kop op het tafelblad? Is de vis in de kom? Of staat hij er naast?

Elke taal in de wereld heeft zijn eigen manier om deze kaart in te vullen. In het Nederlands zeggen we misschien "onder", terwijl een ander volk datzelfde beeld misschien beschrijft met een woord dat "hangend" betekent. Taalkundigen willen deze verschillen bestuderen, maar ze zitten met een groot probleem: ze hebben geen complete kaart. Ze hebben alleen een paar oude, willekeurige plekken op de kaart die ze al hebben gemarkeerd.

Dit artikel vertelt het verhaal van hoe onderzoekers, met hulp van Kunstmatige Intelligentie (AI), deze kaart eindelijk compleet maken.

1. Het oude probleem: De "Topografische" puzzel

Sinds jaar en dag gebruiken onderzoekers een set van 71 plaatjes (de TRPS) om te kijken hoe mensen ruimtelijke relaties benoemen. Het is als een oude, uitgeknipte puzzel. Hij is handig, maar hij dekt niet alles. Er zijn veel situaties die op de puzzel ontbreken, zoals "tussen de bloemen" of "links van de boom".

Vroeger moesten onderzoekers zelf nieuwe plaatjes bedenken en mensen vragen ze te labelen. Dat is heel veel werk, vooral als je het in 50 verschillende talen wilt doen. Het is alsof je probeert een wereldwijde atlas te tekenen door alleen maar met de hand te tekenen, terwijl je duizenden landen moet afdekken.

2. De nieuwe oplossing: De AI als "Super-Vertaler"

De onderzoekers (Li, Carstensen, Xu en anderen) hadden een slim idee. Waarom niet een Groot Taalmodel (LLM) – zoals de AI die je nu gebruikt – vragen om de puzzelstukjes in te vullen?

Ze gaven de AI 220 plaatjes en vroegen: "Hoe zou een moedertaalspreker van het Chinees, het Spaans of het Japans deze situatie beschrijven?"

De test:
Eerst twijfelden ze. Werkt een computer wel goed genoeg? Kunnen ze de AI vertrouwen?
Ze lieten de AI de oude 71 plaatjes labelen en vergeleken dit met wat echte mensen hadden gezegd. Het resultaat? De AI deed het verrassend goed!

De analogie: Het is alsof je een nieuwe student vraagt om een examen te maken. Als die student bijna hetzelfde antwoord geeft als de beste docent, dan mag je die student misschien wel helpen met het nakijken van de rest van de klas. De AI is die slimme student die de basisbegrippen snapt.

3. De "Afdekkings-meter": Hoe vullen we de gaten?

Nu de AI betrouwbaar bleek, gebruikten ze hem als een radar.

Stel je voor dat je een net hebt om vissen te vangen (de data-set). Je wilt weten of je net groot genoeg is om alle soorten vissen te vangen, of dat er nog gaten in zitten waar de vissen doorheen zwemmen.

De onderzoekers lieten de AI alle 220 mogelijke plaatjes labelen in 23 talen.
Vervolgens maten ze met een wiskundige formule (de "coveragemeter") hoe goed een set plaatjes de hele wereld van mogelijke situaties afdekt.

Het resultaat:
Ze ontwierpen een nieuwe set van 42 plaatjes (de LCXRK-set).

De oude sets (TRPS, Zhang, LJSP) waren als netten met kleine gaten: ze misten belangrijke situaties.
De nieuwe set vulde precies die gaten op. Het was alsof ze eindelijk de "gaten" in hun net dichten met stukken die precies de vorm hadden van de vissen die eerder ontsnapt waren.

4. Welke talen moeten we toevoegen?

De AI hielp ook bij een andere vraag: "Welke talen moeten we bestuderen?"
Stel, je hebt al data van het Engels, Chinees en Frans. Welke taal voegt het meest toe aan je kennis?

De AI keek naar de "afstand" tussen talen. Als twee talen heel veel op elkaar lijken (zoals Chinees en Kantonees), hoef je ze niet allebei direct te testen.
Maar talen die ver weg staan in het "taal-landschap" (zoals Portugees of Roemeens in dit onderzoek), zijn goud waard. Ze vullen de gaten in je kennis het snelst op.

De conclusie: Een samenwerking tussen mens en machine

Dit artikel zegt niet dat we mensen niet meer nodig hebben. Integendeel!

De AI is de ontdekkingsreiziger die snel de hele wereldkaart verkent en zegt: "Hier en hier zijn nog grote witte vlekken!"
De mensen zijn de cartografen die die specifieke plekken dan met zorg en precisie gaan inkleuren.

Samengevat in één zin:
Door slimme AI te gebruiken als een kompas, kunnen onderzoekers nu veel sneller en slimmer bepalen welke plaatjes en welke talen ze moeten bestuderen, zodat we eindelijk een complete kaart krijgen van hoe de hele wereld de ruimte in woorden vult.

Het is alsof je eindelijk een GPS hebt gekregen voor een wereld die tot nu toe alleen maar met schetsen was ingevuld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Quantifying and extending the coverage of spatial categorization data sets" in het Nederlands.

Probleemstelling

De studie van ruimtelijke categorisatie over talen heen (cross-linguïstisch) heeft te kampen met een fundamenteel probleem: het ontbreekt aan een gestandaardiseerde representatie van de ruimte van ruimtelijke relaties. In tegenstelling tot domeinen zoals verwantschap (met genealogische roosters) of kleur (met perceptuele kleerruimtes), is het ruimtelijke domein moeilijker te formaliseren.

De meest gebruikte stimulusset is de Topological Relations Picture Series (TRPS), bestaande uit 71 afbeeldingen. Hoewel de TRPS is ontworpen om de grenzen van termen als "in" en "op" te verkennen, dekt deze set niet de volledige ruimte van mogelijke ruimtelijke relaties. Bestaande uitbreidingen (zoals die van Zhang en Landau et al.) focussen vaak op specifieke subtypes van "in" en "op", maar missen een brede dekking van andere ruimtelijke concepten (zoals "buiten", "onder", of richtingsrelaties). Het is een grote uitdaging om bestaande datasets uit te breiden naar tientallen talen en honderden scènes zonder onhaalbare menselijke experimenten te hoeven uitvoeren.

Methodologie

De auteurs stellen een nieuwe aanpak voor die Large Language Models (LLMs) gebruikt om de dekking van ruimtelijke datasets te kwantificeren en uit te breiden. De methode bestaat uit de volgende stappen:

LLM-Labeling:
- De auteurs gebruiken Gemini 3 Flash om ruimtelijke relaties in afbeeldingen te labelen.
- In plaats van menselijke proefpersonen te vervangen, worden LLMs gebruikt als een schaalbaar hulpmiddel om labels te genereren voor een groot aantal scènes (220 in totaal) in 23 verschillende talen.
- De prompt vraagt de LLM om als een moedertaalspreker te reageren en een enkel ruimtelijk term te geven voor de relatie tussen een focusobject en een achtergrondobject.
- Er wordt getest of beeldanalyse noodzakelijk is; een tekstversie (zonder afbeeldingen, alleen beschrijvingen van objecten) levert vergelijkbare resultaten op, wat suggereert dat de LLM's voornamelijk op semantische kennis vertrouwen.
Kwantificering van Dekking (Coverage):
- De auteurs definiëren "dekking" als de mate waarin een subset van scènes (of talen) representatief is voor de volledige universum van mogelijke scènes (of talen).
- Dit wordt wiskundig gedefinieerd als de gemiddelde maximale similariteit tussen elk element in het universum ( $U$ ) en zijn dichtstbijzijnde buur in de subset ( $S$ ):
  $Coverage(S) = \frac{1}{|U|} \sum_{u \in U} \max_{s \in S} sim(s, u)$
- Similariteit tussen scènes wordt berekend op basis van de overeenstemming in LLM-labels over meerdere talen. Similariteit tussen talen wordt berekend op basis van de variatie-informatie (Variation of Information) van de door LLMs gegenereerde partities.
Uitbreiding van de Dataset (LCXRK):
- Om de dekking te vergroten, hebben de auteurs een nieuwe set van 42 scènes ontwikkeld, genaamd LCXRK.
- Deze set is ontworpen door:
  - Ruimtelijke termen in het Engels en Chinees te identificeren die niet in de TRPS vertegenwoordigd zijn (bijv. "buiten", "tussen", "oost").
  - Negaties en reversies van bestaande TRPS-scènes toe te voegen (bijv. "tafel onder kop" in plaats van "kop op tafel").
- De auteurs gebruiken de dekking-maatstaf om te bepalen welke scènes en talen de grootste meerwaarde bieden voor bestaande datasets.

Belangrijkste Resultaten

Validatie van LLMs: LLM-labels tonen een hoge mate van overeenstemming met menselijke labels.
- Voor de TRPS-scènes behalen de LLMs een binaire score (overeenstemming met ten minste één mens) van vaak >0,9.
- De gescoord scores (proportie mensen die hetzelfde label gaven) liggen dicht bij het menselijke maximum, hoewel er variatie is per taal (bijv. grotere verschillen bij Spaans en Nederlands).
- Interessant is dat tekstuele beschrijvingen bijna net zo goed presteren als visuele input, wat suggereert dat de LLM's de ruimtelijke concepten semantisch begrijpen zonder de afbeelding te hoeven "zien".
Verbeterde Dekking:
- De nieuwe LCXRK-set (42 scènes) bereikt een significant hogere dekkingsscore (0,964) dan de TRPS alleen (0,914) of eerdere uitbreidingen zoals de Zhang-set en LJSP-set (beide rond 0,918).
- Multidimensionale schaling (MDS) visualisaties tonen aan dat de LCXRK-set gebieden in de semantische ruimte vult die door de andere sets niet worden bestreken, zoals de topologische relatie "buiten" en kardinaal-richtingsrelaties.
Selectie van Talen:
- De methode kan ook worden gebruikt om talen te selecteren die de diversiteit van een dataset maximaliseren.
- Op basis van LLM-data werden Portugees en Roemeens geïdentificeerd als talen die het verst verwijderd zijn van de bestaande Carstensen et al. (2019) dataset.
- Deze voorspelling werd bevestigd door menselijke data (Xu & Kemp, 2010), wat aantoont dat LLMs nuttig zijn bij het prioriteren van talen voor toekomstig menselijk onderzoek.

Bijdragen

Methodologische Innovatie: Het introduceren van een kwantitatieve "dekking-maatstaf" (coverage measure) die gebruikmaakt van LLM-data om de representativiteit van stimulussets te evalueren.
Nieuwe Dataset: De creatie en publicatie van de LCXRK-dataset (42 nieuwe scènes) die specifiek is ontworpen om gaten in de TRPS te dichten, inclusief negaties en reversies.
Validatie van LLMs in Psycholinguïstiek: Het aantonen dat LLMs (zoals Gemini 3 Flash) betrouwbare proxy's kunnen zijn voor menselijke oordelen bij ruimtelijke categorisatie, vooral voor het selecteren van stimuli en talen voordat menselijke data wordt verzameld.
Schalingsstrategie: Een bewezen strategie om datasets op te schalen naar tientallen talen en honderden scènes, wat essentieel is voor het opzetten van grootschalige cross-linguïstische studies.

Betekenis en Toekomstperspectief

De studie markeert een verschuiving in de manier waarop ruimtelijke semantiek wordt onderzocht. Door LLMs te gebruiken als een "filter" of "voorbereidingsfase", kunnen onderzoekers efficiënter beslissen welke scènes en talen de meeste waarde toevoegen aan een dataset. Dit maakt het mogelijk om datasets te creëren die veel breder en diverser zijn dan ooit tevoren, met potentieel voor honderden scènes en tientallen talen.

De auteurs benadrukken dat LLMs menselijke proefpersonen niet vervangen, maar een cruciale rol spelen in het ontwerpproces. Toekomstig werk zou kunnen focussen op het combineren van deze taalgebaseerde aanpak met een feature-based aanpak (waarbij alle logisch mogelijke combinaties van ruimtelijke kenmerken worden gegenereerd) om een nog systematischere dekking van de ruimtelijke ruimte te bereiken. De beschikbaarheid van de LCXRK-dataset en de methodologie biedt een fundament voor de volgende generatie cross-linguïstisch onderzoek in de ruimtelijke semantiek.

Quantifying and extending the coverage of spatial categorization data sets

1. Het oude probleem: De "Topografische" puzzel

2. De nieuwe oplossing: De AI als "Super-Vertaler"

3. De "Afdekkings-meter": Hoe vullen we de gaten?

4. Welke talen moeten we toevoegen?

De conclusie: Een samenwerking tussen mens en machine

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomstperspectief

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance