Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon

Diese Studie kombiniert regelbasierte Kognaten-Subtraktion mit einem maschinellen Lernklassifikator, um in den Grundwortschätzen von sechs Sulawesi-Sprachen nicht-austronesische Substratwörter zu identifizieren, wobei die Ergebnisse zwar eine signifikante Häufung nicht-mainstreamer Formen bestätigen, aber keine Evidenz für eine einheitliche vorgeschichtliche Substratsprache liefern.

Mukhlis Amien, Go Frendi Gunawan

Veröffentlicht 2026-04-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich die Sprachen der Welt wie einen riesigen, alten Wald vor. Die austronesischen Sprachen (die von Madagaskar bis zu den Osterinseln gesprochen werden) sind wie eine große, gut dokumentierte Baumart, die sich über Tausende von Jahren ausgebreitet hat. Linguisten können die Wurzeln dieser Bäume fast immer zurückverfolgen, bis sie auf einen gemeinsamen „Urahn" (die Ursprache) stoßen.

Aber in Sulawesi (einer Insel in Indonesien) gibt es im Grundwortschatz dieser Sprachen seltsame „Unkraut-Pflanzen". Diese Wörter passen nicht in das Muster der großen Bäume. Sie klingen anders, haben eine andere Struktur und lassen sich nicht mit den bekannten Wurzeln verbinden.

Die große Frage war: Sind diese seltsamen Wörter Überreste einer völlig anderen, alten Sprache, die von den Ausbreitern der austronesischen Sprachen verdrängt wurde (ein sogenanntes „Substrat")? Oder sind sie einfach nur neue Erfindungen der lokalen Sprachen?

Bislang mussten Sprachwissenschaftler diese Wörter einzeln mit der Lupe untersuchen – ein langsamer, mühsamer Prozess. In dieser Studie haben die Forscher einen neuen Weg gewählt: Sie haben einen KI-Scanner gebaut, der nach dem „akustischen Fingerabdruck" dieser Wörter sucht.

Hier ist die einfache Erklärung der Studie, aufgeteilt in drei Teile:

1. Der Detektiv-Algorithmus (Die KI)

Stellen Sie sich vor, Sie haben einen Haufen Wörter. Die Forscher haben zuerst alle Wörter entfernt, die eindeutig zu den bekannten austronesischen Familien gehören (wie das Entfernen von bekannten Unkrautarten). Übrig blieben 438 „verdächtige" Wörter.

Dann haben sie eine KI (eine Art digitaler Detektiv) trainiert. Das Besondere daran: Der Detektiv durfte nicht wissen, welche Wörter zu welcher Familie gehören. Er durfte nur auf das Aussehen und den Klang der Wörter schauen (z. B. wie lang sie sind, wie viele Buchstaben sie haben, ob sie Pausen oder spezielle Laute enthalten).

Das Ergebnis: Die KI hat einen sehr klaren „Fingerabdruck" für diese verdächtigen Wörter gefunden. Sie unterscheiden sich von den normalen Wörtern durch:

  • Sie sind länger (wie lange, verschlungene Sätze).
  • Sie haben mehr Konsonanten-Haufen (schwierige Lautkombinationen).
  • Sie enthalten öfter den Glottisschlag (ein kurzes, hartes „Halt!" im Hals, wie beim Wort „Uh-oh").
  • Sie fehlen oft die typischen Vorsilben, die austronesische Sprachen normalerweise haben.

Die KI konnte diese „Unkraut-Wörter" mit einer Genauigkeit von etwa 76 % von den normalen Wörtern unterscheiden. Das ist wie ein Scanner, der erkennt: „Aha, dieses Wort klingt nicht wie ein typischer austronesischer Baum, es sieht aus wie etwas Fremdes."

2. Die große Enttäuschung (Kein gemeinsamer Urvater)

Jetzt kam der spannende Teil. Wenn diese seltsamen Wörter wirklich von einer einzigen, alten, untergegangenen Sprache stammen würden, müssten sie sich untereinander ähneln – wie Geschwister, die vom selben Vater abstammen.

Die Forscher haben die 266 sichersten „Verdächtigen" aus verschiedenen Sprachen der Insel verglichen.
Das Ergebnis war überraschend: Diese Wörter waren sich nicht ähnlich genug, um eine gemeinsame Familie zu bilden. Es gab keine klaren „Wortfamilien".

Die Analogie:
Stellen Sie sich vor, Sie finden in fünf verschiedenen Dörfern jeweils einen seltsamen, fremden Stein.

  • Hypothese A (Substrat): Alle Steine stammen aus demselben alten Berg, der unter der Erde liegt.
  • Hypothese B (Unabhängige Erfindung): Jeder Dorfbewohner hat sich einfach einen eigenen, seltsamen Stein aus dem lokalen Flussbett geholt, weil ihm der normale Stein nicht gefiel.

Die Studie zeigt, dass Hypothese B wahrscheinlicher ist. Die „seltsamen Wörter" in Sulawesi sind wahrscheinlich keine Überreste einer einzigen alten Sprache, sondern unabhängige Erfindungen jeder einzelnen Sprache. Jede Sprache hat auf ihre eigene Art neue Wörter für Dinge wie „beißen", „binden" oder „werfen" entwickelt, die nicht zum Standardmuster passten. Es ist, als hätte jeder Dorfbewohner sein eigenes, kleines Unkraut gezüchtet, anstatt dass alle dasselbe alte Unkraut geerbt hätten.

3. Warum ist das wichtig?

Die Studie zeigt zwei Dinge:

  1. KI ist nützlich: Wir können Computer nutzen, um schnell zu erkennen, welche Wörter in einer Sprache „anders klingen" als der Rest. Das hilft Sprachforschern, ihre Arbeit zu beschleunigen.
  2. Vorsicht bei Schlussfolgerungen: Nur weil ein Wort „anders klingt", heißt das nicht automatisch, dass es von einer fremden, alten Zivilisation stammt. Oft sind es einfach nur kreative Neuerungen der lokalen Sprache.

Zusammenfassend:
Die Forscher haben einen digitalen Detektiv gebaut, der die „akustische DNA" von Wörtern in Sulawesi analysiert. Er fand heraus, dass es viele Wörter gibt, die nicht ins Standardmuster passen. Aber statt sie als Beweis für eine große, verlorene alte Sprache zu sehen, deuten die Daten darauf hin, dass jede Sprache diese Wörter einfach selbst erfunden hat. Es ist eine Geschichte über kreative Unabhängigkeit statt über gemeinsame Herkunft.