Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Diese Studie stellt zwei neue Benchmarks vor, um geschlechtsspezifische Verzerrungen in maschinellen Übersetzungen des geschlechtsneutralen Baskischen zu bewerten, und zeigt, dass große Sprachmodelle und MT-Systeme systematisch männliche Formen bevorzugen.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Erklärung der Forschungsergebnisse dieser Arbeit auf Deutsch:

Das Problem: Der „unsichtbare Vorurteil"-Filter

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas voreingenommenen Übersetzer. Dieser Übersetzer hat Millionen von Büchern aus dem Internet gelesen, um zu lernen, wie Sprache funktioniert. Das Problem ist: In diesen Büchern stecken oft alte Vorurteile. Wenn der Übersetzer zum Beispiel das Wort „Krankenschwester" sieht, denkt er sofort an eine Frau. Wenn er „Mechaniker" liest, denkt er sofort an einen Mann.

Das ist besonders tricky bei der Sprache Baskisch. Das Baskische ist eine einzigartige Sprache (ein „Sprachinsel"), die keine grammatischen Geschlechter hat. Es gibt kein „er" oder „sie" für Berufe. Ein Baskischer Satz wie „Der Mechaniker rief die Krankenschwester an" ist völlig geschlechtsneutral.

Aber wenn dieser neutrale Satz in Sprachen wie Spanisch oder Französisch übersetzt wird, muss das System eine Entscheidung treffen: Ist es ein Mechaniker (männlich) oder eine Mechanikerin (weiblich)? Hier zeigt sich der Bias (die Voreingenommenheit).

Die zwei neuen Werkzeuge (Die „Testkoffer")

Die Forscher aus dem Baskenland haben zwei neue Testkoffer entwickelt, um zu prüfen, wie gut (oder schlecht) diese KI-Systeme mit Geschlechtergerechtigkeit umgehen.

1. Der „WinoMTeus"-Test: Der Berufswahlsimulator

Stellen Sie sich vor, Sie haben eine Liste von neutralen Sätzen über Berufe in Baskisch.

  • Der Test: Die KI soll diese Sätze ins Spanische oder Französische übersetzen.
  • Die Frage: Übersetzt die KI den Beruf „Krankenschwester" als Frau oder als Mann? Übersetzt sie „Mechaniker" als Mann oder als Frau?
  • Der Vergleich: Die Forscher haben die Ergebnisse mit der realen Arbeitswelt im Baskenland verglichen.
    • Beispiel: In der Realität sind 96 % der Hausangestellten Frauen. Wenn die KI aber in 80 % der Fälle einen männlichen Hausangestellten („el criado") übersetzt, dann hat die KI ein Problem. Sie ignoriert die Realität und folgt einem alten Klischee.

Das Ergebnis: Die KI-Systeme neigen stark dazu, Berufe, die in der Realität von Frauen gemacht werden, trotzdem als männlich zu übersetzen. Sie bevorzugen das „männliche Standard-Modell", weil das in ihren Trainingsdaten am häufigsten vorkommt.

2. Der „FLORES+Gender"-Test: Der Qualitäts-Check

Hier ist der Test andersherum.

  • Der Test: Man nimmt Sätze aus dem Spanischen oder Englischen, die entweder explizit männlich oder explizit weiblich sind (z. B. „Der Fahrer" vs. „Die Fahrerin").
  • Die Frage: Wird die Übersetzung ins Baskische besser oder schlechter, je nachdem, ob das Originalwort männlich oder weiblich war?
  • Die Metapher: Es ist wie ein Koch, der ein Rezept kocht. Wenn das Rezept „Hähnchen" sagt, schmeckt es vielleicht besser als wenn es „Hühnchen" sagt, nur weil der Koch mehr Übung mit dem ersten Wort hatte.

Das Ergebnis: Bei manchen Systemen sind die Übersetzungen etwas besser, wenn das Originalwort männlich war. Das liegt daran, dass die KI mehr „Übung" mit männlichen Formen hat. Bei weiblichen Formen stolpern sie manchmal mehr.

Was haben die Forscher herausgefunden?

  1. Der „Mann als Standard"-Effekt: Fast alle getesteten KI-Modelle (sowohl die großen von Google/OpenAI als auch die kleineren) übersetzen geschlechtsneutrale Baskische Berufe lieber als männlich. Selbst wenn die Statistik sagt: „Das ist ein Frauenberuf", sagt die KI: „Nein, ich mache es männlich."
  2. Die Realität wird ignoriert: Die KI passt sich nicht an die echte Welt an. Sie folgt ihren alten, voreingenommenen Mustern aus dem Internet.
  3. Unterschiede zwischen den Modellen: Einige Modelle (wie die, die speziell für das Baskische trainiert wurden) machen es etwas besser als die ganz allgemeinen Modelle, aber das Problem ist immer noch da.

Warum ist das wichtig?

Stellen Sie sich vor, Sie nutzen eine KI, um Stellenanzeigen zu übersetzen oder Nachrichten zu generieren. Wenn die KI ständig sagt „Der Arzt" statt „Die Ärztin" oder „Die Sekretärin" statt „Der Sekretär", dann verstärkt sie unbewusst das Bild, dass Männer die Norm sind und Frauen die Ausnahme.

Diese Studie zeigt: Auch wenn eine Sprache wie das Baskische keine Geschlechter hat, können die KI-Systeme, die diese Sprache verarbeiten, trotzdem Vorurteile aus anderen Sprachen (wie Spanisch oder Englisch) „einschleppen".

Fazit in einem Satz

Die KI ist wie ein Schüler, der zu viel alte Bücher gelesen hat und denkt, die Welt sei anders, als sie heute wirklich ist; diese neuen Tests helfen uns, genau zu sehen, wo dieser Schüler noch lernen muss, um fairer zu werden.