Quantifying and extending the coverage of spatial categorization data sets

Each language version is independently generated for its own context, not a direct translation.

Wie KI hilft, die Welt der Sprache zu kartieren: Eine einfache Erklärung

Stellen Sie sich vor, Sie versuchen, eine Landkarte der Welt zu zeichnen. Aber nicht eine Landkarte mit Bergen und Flüssen, sondern eine Landkarte, die zeigt, wie Menschen in verschiedenen Sprachen über Raum und Position sprechen. Wie sagt man in Deutsch, dass ein Buch auf dem Tisch liegt? Und wie sagt man das auf Chinesisch oder Spanisch? Ist es immer dasselbe Wort? Oder gibt es feine Unterschiede?

Dies ist die große Frage, die sich die Forscher in diesem Papier stellen. Und sie haben eine sehr clevere Lösung gefunden, die wie ein digitaler Kompass funktioniert.

Das Problem: Die Lücken in der Landkarte

Bisher haben Wissenschaftler eine Sammlung von 71 Bildern (die sogenannte "TRPS") benutzt, um zu testen, wie Menschen räumliche Beziehungen beschreiben. Stellen Sie sich diese Bilder wie eine alte, etwas verstaubte Landkarte vor. Sie zeigt die wichtigsten Städte (die häufigsten Wörter wie "auf" oder "in"), aber sie lässt riesige Wüsten und unbekannte Gebiete aus.

Frühere Forscher haben versucht, diese Landkarte zu erweitern, indem sie einfach noch ein paar neue Bilder hinzugefügt haben. Aber das war wie das Hinzufügen von ein paar Häusern in eine leere Wüste – die Lücken blieben immer noch riesig.

Die Lösung: Der KI-Assistent als "Vorerkundungsteam"

Hier kommt die Künstliche Intelligenz (KI), genauer gesagt große Sprachmodelle (LLMs), ins Spiel. Die Forscher haben eine geniale Idee: Bevor sie teure und zeitaufwändige Experimente mit echten Menschen durchführen, lassen sie die KI die Arbeit vorab erledigen.

Stellen Sie sich die KI wie ein schnelles, virtuelles Vor-Ort-Team vor:

Die KI schaut sich Tausende von neuen, möglichen Bildern an.
Sie "spricht" 23 verschiedene Sprachen und beschreibt, was auf den Bildern zu sehen ist (z. B. "Die Katze ist zwischen den Blumen").
Die Forscher nutzen diese KI-Antworten, um zu berechnen: "Welche neuen Bilder und welche neuen Sprachen würden unsere Landkarte am meisten erweitern?"

Es ist, als würde man einen Kompass benutzen, um zu finden, wo die größten Lücken in der Landkarte sind, bevor man dorthin reist, um sie zu vermessen.

Der große Test: Funktioniert die KI wirklich?

Natürlich war die Frage: Kann eine Maschine wirklich so gut urteilen wie ein Mensch?
Die Forscher haben die KI-Antworten mit echten menschlichen Antworten verglichen. Das Ergebnis war überraschend gut:

Die KI hat in den meisten Fällen genau das Wort gewählt, das auch ein Mensch gewählt hätte.
Interessanterweise brauchte die KI gar keine Bilder zu sehen! Wenn man ihr nur sagte: "Stell dir vor, ein Teller liegt unter einer Tasse", hat sie das richtige Wort gefunden. Das ist, als würde sie die Logik der Sprache verstehen, ohne die Bilder wirklich "sehen" zu müssen.

Das Ergebnis: Eine viel vollständigere Landkarte

Mit Hilfe der KI haben die Forscher 42 neue Bilder entwickelt, die genau die Lücken füllen, die die alten Sammlungen offen gelassen hatten.

Die alte Landkarte (TRPS): Zeigte hauptsächlich Dinge, die auf oder in etwas sind.
Die neue Landkarte (LCXRK): Zeigt auch Dinge, die unter, außerhalb, zwischen oder neben etwas sind.

Wenn man die neue Landkarte mit den alten vergleicht, sieht man, dass sie den "Raum aller möglichen Bilder" viel besser abdeckt. Es ist, als hätte man von einer Landkarte, die nur die Hauptstraßen zeigt, zu einer Karte gewechselt, die auch die kleinen Gassen und Pfade enthält.

Was bedeutet das für die Zukunft?

Das Ziel der Forscher ist es, eine riesige Datenbank zu bauen, die Dutzende von Sprachen und Hunderte von Bildern umfasst. Das ist eine enorme Aufgabe, die man nicht allein mit menschlichen Testpersonen schaffen kann.

Die KI ist hier der Turbo-Booster. Sie hilft den Wissenschaftlern zu entscheiden:

Welche Bilder sind am wichtigsten, um neue Wörter zu finden?
Welche Sprachen sollten wir als nächstes untersuchen, um die Vielfalt der Welt besser zu verstehen?

Zusammenfassend:
Die Forscher nutzen KI nicht, um Menschen zu ersetzen, sondern als intelligenten Wegweiser. Sie hilft uns, die Lücken in unserem Verständnis der menschlichen Sprache zu finden und sicherzustellen, dass wir nicht nur die offensichtlichen Dinge sehen, sondern die ganze, bunte Vielfalt der Welt entdecken. Es ist ein Schritt hin zu einer vollständigeren Landkarte des menschlichen Denkens.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Quantifying and extending the coverage of spatial categorization data sets" auf Deutsch:

Problemstellung

Die linguistische Variation bei der räumlichen Kategorisierung (wie Sprachen die Welt in Kategorien einteilen) ist ein zentrales Forschungsgebiet, das jedoch im Vergleich zu Verwandtschaftssystemen oder Farbkategorien schwerer zu formalisieren ist. Der Hauptgrund dafür ist das Fehlen einer standardisierten Repräsentation des Raums möglicher räumlicher Relationen.
Das derzeit am häufigsten verwendete Stimulus-Set ist die Topological Relations Picture Series (TRPS) mit 71 Bildern. Obwohl die TRPS entwickelt wurde, um die Grenzen von „in"- und „auf"-Relationen zu untersuchen, deckt sie den Raum möglicher räumlicher Szenen nicht umfassend ab. Bisherige Erweiterungen (z. B. durch Zhang, 2013, oder Landau et al., 2017) konzentrierten sich stark auf spezifische Unterkategorien von „in" und „auf", vernachlässigten aber oft andere räumliche Konzepte (wie „außerhalb", „zwischen" oder Richtungsrelationen).
Die Herausforderung besteht darin, Datensätze zu skalieren, die Dutzende von Sprachen und Hunderte von Szenen umfassen, ohne dabei den manuellen Aufwand für die Datenerhebung durch menschliche Teilnehmer ins Unermessliche zu steigern.

Methodik

Die Autoren schlagen einen hybriden Ansatz vor, der Large Language Models (LLMs) nutzt, um die Abdeckung (Coverage) bestehender räumlicher Datensätze zu quantifizieren und zu erweitern.

LLM-basierte Etikettierung:
- Statt Bilder nur zu übersetzen, werden LLMs (hier spezifisch Gemini 3 Flash) direkt als „menschliche Teilnehmer" behandelt, die Bilder visuell analysieren und räumliche Relationen in verschiedenen Sprachen benennen.
- Es wurden 220 Szenen aus vier Stimulus-Sets (TRPS, Zhang, LJSP und ein neues Set namens LCXRK) in 23 Sprachen verarbeitet.
- Die Prompts instruierten das Modell, als Muttersprachler zu agieren und einzelne räumliche Begriffe (keine ganzen Sätze) zu liefern.
Quantifizierung der Abdeckung (Coverage):
- Die Autoren definieren die Abdeckung eines Stimulus-Sets $S$ innerhalb eines Universums $U$ (aller möglichen Szenen) formal als den durchschnittlichen maximalen Ähnlichkeitswert zwischen jeder Szene in $U$ und ihrem nächsten Nachbarn in $S$ :
  $\text{Coverage}(S) = \frac{1}{|U|} \sum_{u \in U} \max_{s \in S} \text{sim}(s, u)$
- Die Ähnlichkeit $\text{sim}(s, u)$ wird basierend auf der Übereinstimmung der von den LLMs generierten Labels über alle Sprachen hinweg berechnet.
- Ein ähnliches Maß wird für die Abdeckung von Sprachen verwendet, wobei die Distanz zwischen Sprachen durch die Variation of Information (basierend auf den induzierten Partitionen der LLM-Labels) gemessen wird.
Erweiterungsstrategie (LCXRK-Set):
- Um die Abdeckung zu maximieren, entwickelten die Autoren das LCXRK-Set mit 42 neuen Szenen.
- Strategie A: Identifikation von räumlichen Begriffen in Englisch und Chinesisch, die in der TRPS nicht vorkommen (z. B. „outside", „among", „left"), und Erstellung neuer Szenen, die diese illustrieren.
- Strategie B: Negation oder Umkehrung bestehender TRPS-Relationen (z. B. Tasse unter Tisch statt Tisch unter Tasse).
Validierung:
- Die Genauigkeit der LLM-Labels wurde gegen menschliche Daten (Carstensen et al., 2019; Xu & Kemp, 2010) validiert.
- Es wurde ein Vergleich zwischen bildbasierten und rein textbasierten Eingaben (nur Beschreibung der Objekte) durchgeführt, um den Beitrag der Bildanalyse zu isolieren.

Hauptergebnisse

Übereinstimmung von LLM und Mensch:
- LLMs zeigen eine hohe Übereinstimmung mit menschlichen Labels (binäre Scores oft > 0,9 für viele Sprachen).
- Die Scores liegen nahe am Maximum, das durch menschliche Daten erreicht werden kann.
- Wichtig: Der Vergleich zwischen bildbasierten und textbasierten Eingaben ergab fast identische Ergebnisse. Dies deutet darauf hin, dass die LLMs für diese Aufgabe primär auf ihr linguistisches Wissen über räumliche Konzepte zurückgreifen und die Bildanalyse nur einen geringen oder keinen signifikanten Beitrag zur Genauigkeit leistet.
Verbesserung der Abdeckung:
- Die quantitative Analyse zeigt, dass das neue LCXRK-Set die Abdeckung des TRPS-Raums signifikant besser verbessert als die bisherigen Erweiterungen (Zhang-Set und LJSP-Set).
- Der Coverage-Score stieg von 0,914 (TRPS allein) auf 0,964 (TRPS + LCXRK), wobei das Konfidenzintervall keine Überlappung mit den anderen Erweiterungen aufwies.
- Multidimensionale Skalierung (MDS) visualisiert, dass das LCXRK-Set Lücken im semantischen Raum füllt, die von den anderen Sets nicht abgedeckt werden (z. B. Relationen wie „außerhalb" oder „zwischen").
Sprachauswahl:
- Das Coverage-Maß konnte erfolgreich genutzt werden, um vorherzusagen, welche Sprachen die Abdeckung bestehender Datensätze am meisten erweitern würden.
- Basierend auf LLM-Daten wurden Portugiesisch und Rumänisch als Sprachen identifiziert, die am weitesten von den bereits dokumentierten Sprachen entfernt sind. Diese Vorhersage wurde durch menschliche Daten (Xu & Kemp, 2010) bestätigt.

Beiträge und Bedeutung

Skalierbarkeit: Die Studie demonstriert, wie LLMs genutzt werden können, um psycholinguistische Datensätze effizient zu skalieren. Sie ermöglichen die Vorab-Screening von Szenen und Sprachen, um den Aufwand für teure menschliche Experimente zu minimieren.
Neue Methodik: Der Ansatz, LLMs nicht nur als Übersetzer, sondern als direkte Label-Generatoren für visuelle Stimuli zu nutzen, und die formale Definition von „Coverage" basierend auf LLM-Ähnlichkeiten, stellen einen methodischen Fortschritt dar.
Erweiterter Datensatz: Die Autoren haben das TRPS um 42 neue Szenen (LCXRK) erweitert und diese mit menschlichen Labels für Englisch und Chinesisch validiert. Dieser Datensatz ist öffentlich verfügbar.
Theoretische Implikationen: Die Ergebnisse legen nahe, dass LLMs, insbesondere für hochressourcenreiche Sprachen, ein verlässliches Werkzeug sind, um die Grenzen der menschlichen räumlichen Kategorisierung zu erkunden, ohne dass eine komplexe Bildanalyse notwendig ist.
Zukunftsperspektive: Der Ansatz ebnet den Weg für Datensätze mit Dutzenden von Sprachen und Hunderten von Szenen. Die Autoren schlagen vor, die LLM-basierte Abdeckungsmessung mit einem feature-basierten Ansatz (systematische Generierung aller logisch möglichen Szenen) zu kombinieren, um eine noch vollständigere Abdeckung des Raums möglicher Relationen zu erreichen.

Zusammenfassend bietet das Paper einen robusten Rahmen, um die Lücken in der Erforschung räumlicher Semantik zu schließen, indem es KI-Modelle nutzt, um die Effizienz und Reichweite cross-linguistischer Studien drastisch zu erhöhen.

Quantifying and extending the coverage of spatial categorization data sets

Das Problem: Die Lücken in der Landkarte

Die Lösung: Der KI-Assistent als "Vorerkundungsteam"

Der große Test: Funktioniert die KI wirklich?

Das Ergebnis: Eine viel vollständigere Landkarte

Was bedeutet das für die Zukunft?

Problemstellung

Methodik

Hauptergebnisse

Beiträge und Bedeutung

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance