Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Each language version is independently generated for its own context, not a direct translation.

🧠 Wenn KI-Modelle zweisprachig werden: Ein Ausflug in die Welt der "falschen Freunde"

Stellen Sie sich vor, Sie haben einen sehr intelligenten Roboter, der Millionen von Büchern in verschiedenen Sprachen gelesen hat. Er kann fließend Englisch, Spanisch, Französisch und Deutsch sprechen. Aber die Forscher dieser Studie haben herausgefunden: Dieser Roboter ist zwar ein guter Buchhalter von Wörtern, aber ein etwas verwirrter Übersetzer, wenn es um die Bedeutung geht.

Die Studie untersucht, wie diese KI-Modelle (Large Language Models oder LLMs) mit einem speziellen Phänomen umgehen: Wörtern, die in zwei Sprachen gleich aussehen, aber unterschiedliche Bedeutungen haben.

1. Die drei Arten von Wörtern (Das Menü)

Um das Problem zu verstehen, müssen wir drei Arten von Wörtern kennen, die wie verschiedene Gerichte auf einem Menü sind:

Die "Zwillinge" (Kognaten): Das sind Wörter wie Haus (Deutsch) und House (Englisch) oder Blind (beide Sprachen). Sie sehen ähnlich aus und bedeuten das Gleiche.
- Die Metapher: Das sind wie Zwillingsbrüder, die sich nicht nur ähnlich sehen, sondern auch denselben Charakter haben. Für die KI ist es ein Kinderspiel, sie zu erkennen.
Die "Fremden" (Nicht-Kognaten): Das sind Wörter wie Tisch (Deutsch) und Table (Englisch). Sie bedeuten das Gleiche, sehen aber völlig unterschiedlich aus.
- Die Metapher: Das sind wie Kameraden in Uniform, die sich nicht ähnlich sehen, aber denselben Job machen. Die KI muss hier hart arbeiten, um zu wissen, dass sie zusammengehören.
Die "Täuscher" (Interlinguale Homographen): Das ist das Problemkind. Wörter wie Gift im Englischen (ein Geschenk) und im Deutschen (Gift/Poison). Oder Embarazada im Spanischen (schwanger) vs. Embarrassed im Englischen (verlegen). Sie sehen fast identisch aus, meinen aber völlig unterschiedliche Dinge.
- Die Metapher: Das sind wie Schwindler in Tarnkappen. Sie tragen das gleiche Kostüm wie ein Freund, sind aber eigentlich Feinde.

2. Das Experiment: Der Test im Labor

Die Forscher haben verschiedene KI-Modelle (wie LLaMA, Mistral, BLOOM) getestet. Sie stellten ihnen diese Wörter vor, einmal allein und einmal in einem ganzen Satz.

Ergebnis 1: Der "Schwindler"-Effekt
Wenn die KI ein Wort wie Gift allein sah, rutschte ihr oft der falsche Hut auf.

Sie sah das Wort "Gift".
Da es im Englischen "Geschenk" bedeutet, dachte die KI: "Aha, Geschenk!"
Aber wenn das Wort im deutschen Kontext stand, war es eigentlich "Gift" (Todesgift).
Das Ergebnis: Die KI verwechselte die Bedeutungen oft schlimmer als ein reiner Zufallstreffer. Sie verließ sich zu sehr auf das Aussehen des Wortes (die Buchstaben) und ignorierte die Bedeutung. Es ist, als würde jemand nur nach dem T-Shirt urteilen, wer eine Person ist, und dabei völlig vergessen, dass die Person unter dem T-Shirt ein ganz anderer Mensch sein könnte.

Ergebnis 2: Die "Zwillinge" sind beliebt
Bei den "Zwillingen" (Kognaten) waren die KIs super schnell und genau. Da sich Form und Bedeutung decken, funktionierte das wie ein gut geöltes Getriebe.

Ergebnis 3: Der Kontext hilft (aber nur teilweise)
Wenn die KI einen ganzen Satz bekam, konnte sie manchmal den Schwindler entlarven.

Beispiel: "Das Gift tötete den Hund." (Hier muss es Gift sein).
Die KI konnte hier oft das richtige deutsche Wort verstehen, weil der Satz (der Kontext) wie ein Sicherheitsgurt wirkte, der sie auf den richtigen Pfad zwang.
ABER: Wenn der Satz auf Englisch war und das deutsche Wort Gift enthielt, dachte die KI oft immer noch an "Geschenk", weil sie zu sehr auf die englische Sprache fixiert war. Sie hatte Schwierigkeiten, sich in eine fremde Sprache (außer Englisch) hineinzuversetzen.

3. Die große Erkenntnis: Der Roboter hat keine "Welt-Verbindung"

Warum macht die KI das?
Die Forscher sagen: Diese Modelle haben Wörter wie Karten in einem riesigen Archiv gelernt. Sie wissen, welche Buchstaben oft zusammenkommen. Aber sie haben keine echte Verbindung zur realen Welt.

Ein Mensch weiß, dass Gift im Deutschen etwas ist, das einen umbringt, weil er es vielleicht gesehen oder gelesen hat.
Die KI weiß nur: "Das Wort 'Gift' kommt oft in Sätzen vor, die mit 'Geschenk' zu tun haben."

Es ist, als würde ein Koch ein Rezept auswendig lernen, ohne jemals gekocht zu haben. Er kennt die Zutaten (die Buchstaben), aber er weiß nicht wirklich, wie sie schmecken (die Bedeutung).

4. Fazit: Was lernen wir daraus?

Die Studie zeigt uns, dass unsere KI-Modelle zwar beeindruckend sind, aber noch nicht so schlau wie ein zweisprachiger Mensch.

Sie sind gut im Erkennen von Mustern: Wenn Wörter ähnlich aussehen, denken sie, sie bedeuten das Gleiche.
Sie sind schlecht im Verstehen von Nuancen: Wenn Wörter täuschen (wie die "Schwindler"), verlieren sie den Faden, besonders wenn es nicht um Englisch geht.
Die Zukunft: Damit KI wirklich zweisprachig wie ein Mensch wird, muss sie lernen, nicht nur die Buchstaben zu zählen, sondern die Bedeutung hinter den Wörtern zu verstehen. Sie muss lernen, dass ein Wort wie Gift je nach Land ein Geschenk oder ein Mordwerkzeug sein kann.

Kurz gesagt: Unsere KI ist wie ein Tourist, der eine Sprach-App auf dem Handy hat. Er kann Sätze nachsprechen, aber wenn er auf die falsche Taste drückt (wegen eines ähnlichen Wortes), landet er im falschen Restaurant – und bestellt versehentlich Gift statt ein Geschenk.

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

🧠 Wenn KI-Modelle zweisprachig werden: Ein Ausflug in die Welt der "falschen Freunde"

1. Die drei Arten von Wörtern (Das Menü)

2. Das Experiment: Der Test im Labor

3. Die große Erkenntnis: Der Roboter hat keine "Welt-Verbindung"

4. Fazit: Was lernen wir daraus?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

🧠 Wenn KI-Modelle zweisprachig werden: Ein Ausflug in die Welt der "falschen Freunde"

1. Die drei Arten von Wörtern (Das Menü)

2. Das Experiment: Der Test im Labor

3. Die große Erkenntnis: Der Roboter hat keine "Welt-Verbindung"

4. Fazit: Was lernen wir daraus?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Byte-token Enhanced Language Models for Temporal Point Processes Analysis

Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models