Quantifying and extending the coverage of spatial categorization data sets

Die Studie zeigt, dass durch die Nutzung von Large Language Models zur Generierung von Labels die Topological Relations Picture Series (TRPS) um 42 neue Szenen erweitert werden kann, um eine bessere Abdeckung des Raums möglicher Szenen zu erreichen und die Skalierung auf Datensätze mit vielen Sprachen und Hunderten von Szenen zu ermöglichen.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Wie KI hilft, die Welt der Sprache zu kartieren: Eine einfache Erklärung

Stellen Sie sich vor, Sie versuchen, eine Landkarte der Welt zu zeichnen. Aber nicht eine Landkarte mit Bergen und Flüssen, sondern eine Landkarte, die zeigt, wie Menschen in verschiedenen Sprachen über Raum und Position sprechen. Wie sagt man in Deutsch, dass ein Buch auf dem Tisch liegt? Und wie sagt man das auf Chinesisch oder Spanisch? Ist es immer dasselbe Wort? Oder gibt es feine Unterschiede?

Dies ist die große Frage, die sich die Forscher in diesem Papier stellen. Und sie haben eine sehr clevere Lösung gefunden, die wie ein digitaler Kompass funktioniert.

Das Problem: Die Lücken in der Landkarte

Bisher haben Wissenschaftler eine Sammlung von 71 Bildern (die sogenannte "TRPS") benutzt, um zu testen, wie Menschen räumliche Beziehungen beschreiben. Stellen Sie sich diese Bilder wie eine alte, etwas verstaubte Landkarte vor. Sie zeigt die wichtigsten Städte (die häufigsten Wörter wie "auf" oder "in"), aber sie lässt riesige Wüsten und unbekannte Gebiete aus.

Frühere Forscher haben versucht, diese Landkarte zu erweitern, indem sie einfach noch ein paar neue Bilder hinzugefügt haben. Aber das war wie das Hinzufügen von ein paar Häusern in eine leere Wüste – die Lücken blieben immer noch riesig.

Die Lösung: Der KI-Assistent als "Vorerkundungsteam"

Hier kommt die Künstliche Intelligenz (KI), genauer gesagt große Sprachmodelle (LLMs), ins Spiel. Die Forscher haben eine geniale Idee: Bevor sie teure und zeitaufwändige Experimente mit echten Menschen durchführen, lassen sie die KI die Arbeit vorab erledigen.

Stellen Sie sich die KI wie ein schnelles, virtuelles Vor-Ort-Team vor:

  1. Die KI schaut sich Tausende von neuen, möglichen Bildern an.
  2. Sie "spricht" 23 verschiedene Sprachen und beschreibt, was auf den Bildern zu sehen ist (z. B. "Die Katze ist zwischen den Blumen").
  3. Die Forscher nutzen diese KI-Antworten, um zu berechnen: "Welche neuen Bilder und welche neuen Sprachen würden unsere Landkarte am meisten erweitern?"

Es ist, als würde man einen Kompass benutzen, um zu finden, wo die größten Lücken in der Landkarte sind, bevor man dorthin reist, um sie zu vermessen.

Der große Test: Funktioniert die KI wirklich?

Natürlich war die Frage: Kann eine Maschine wirklich so gut urteilen wie ein Mensch?
Die Forscher haben die KI-Antworten mit echten menschlichen Antworten verglichen. Das Ergebnis war überraschend gut:

  • Die KI hat in den meisten Fällen genau das Wort gewählt, das auch ein Mensch gewählt hätte.
  • Interessanterweise brauchte die KI gar keine Bilder zu sehen! Wenn man ihr nur sagte: "Stell dir vor, ein Teller liegt unter einer Tasse", hat sie das richtige Wort gefunden. Das ist, als würde sie die Logik der Sprache verstehen, ohne die Bilder wirklich "sehen" zu müssen.

Das Ergebnis: Eine viel vollständigere Landkarte

Mit Hilfe der KI haben die Forscher 42 neue Bilder entwickelt, die genau die Lücken füllen, die die alten Sammlungen offen gelassen hatten.

  • Die alte Landkarte (TRPS): Zeigte hauptsächlich Dinge, die auf oder in etwas sind.
  • Die neue Landkarte (LCXRK): Zeigt auch Dinge, die unter, außerhalb, zwischen oder neben etwas sind.

Wenn man die neue Landkarte mit den alten vergleicht, sieht man, dass sie den "Raum aller möglichen Bilder" viel besser abdeckt. Es ist, als hätte man von einer Landkarte, die nur die Hauptstraßen zeigt, zu einer Karte gewechselt, die auch die kleinen Gassen und Pfade enthält.

Was bedeutet das für die Zukunft?

Das Ziel der Forscher ist es, eine riesige Datenbank zu bauen, die Dutzende von Sprachen und Hunderte von Bildern umfasst. Das ist eine enorme Aufgabe, die man nicht allein mit menschlichen Testpersonen schaffen kann.

Die KI ist hier der Turbo-Booster. Sie hilft den Wissenschaftlern zu entscheiden:

  • Welche Bilder sind am wichtigsten, um neue Wörter zu finden?
  • Welche Sprachen sollten wir als nächstes untersuchen, um die Vielfalt der Welt besser zu verstehen?

Zusammenfassend:
Die Forscher nutzen KI nicht, um Menschen zu ersetzen, sondern als intelligenten Wegweiser. Sie hilft uns, die Lücken in unserem Verständnis der menschlichen Sprache zu finden und sicherzustellen, dass wir nicht nur die offensichtlichen Dinge sehen, sondern die ganze, bunte Vielfalt der Welt entdecken. Es ist ein Schritt hin zu einer vollständigeren Landkarte des menschlichen Denkens.