Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Erklärung der Forschungsergebnisse dieser Arbeit auf Deutsch:

Das Problem: Der „unsichtbare Vorurteil"-Filter

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas voreingenommenen Übersetzer. Dieser Übersetzer hat Millionen von Büchern aus dem Internet gelesen, um zu lernen, wie Sprache funktioniert. Das Problem ist: In diesen Büchern stecken oft alte Vorurteile. Wenn der Übersetzer zum Beispiel das Wort „Krankenschwester" sieht, denkt er sofort an eine Frau. Wenn er „Mechaniker" liest, denkt er sofort an einen Mann.

Das ist besonders tricky bei der Sprache Baskisch. Das Baskische ist eine einzigartige Sprache (ein „Sprachinsel"), die keine grammatischen Geschlechter hat. Es gibt kein „er" oder „sie" für Berufe. Ein Baskischer Satz wie „Der Mechaniker rief die Krankenschwester an" ist völlig geschlechtsneutral.

Aber wenn dieser neutrale Satz in Sprachen wie Spanisch oder Französisch übersetzt wird, muss das System eine Entscheidung treffen: Ist es ein Mechaniker (männlich) oder eine Mechanikerin (weiblich)? Hier zeigt sich der Bias (die Voreingenommenheit).

Die zwei neuen Werkzeuge (Die „Testkoffer")

Die Forscher aus dem Baskenland haben zwei neue Testkoffer entwickelt, um zu prüfen, wie gut (oder schlecht) diese KI-Systeme mit Geschlechtergerechtigkeit umgehen.

1. Der „WinoMTeus"-Test: Der Berufswahlsimulator

Stellen Sie sich vor, Sie haben eine Liste von neutralen Sätzen über Berufe in Baskisch.

Der Test: Die KI soll diese Sätze ins Spanische oder Französische übersetzen.
Die Frage: Übersetzt die KI den Beruf „Krankenschwester" als Frau oder als Mann? Übersetzt sie „Mechaniker" als Mann oder als Frau?
Der Vergleich: Die Forscher haben die Ergebnisse mit der realen Arbeitswelt im Baskenland verglichen.
- Beispiel: In der Realität sind 96 % der Hausangestellten Frauen. Wenn die KI aber in 80 % der Fälle einen männlichen Hausangestellten („el criado") übersetzt, dann hat die KI ein Problem. Sie ignoriert die Realität und folgt einem alten Klischee.

Das Ergebnis: Die KI-Systeme neigen stark dazu, Berufe, die in der Realität von Frauen gemacht werden, trotzdem als männlich zu übersetzen. Sie bevorzugen das „männliche Standard-Modell", weil das in ihren Trainingsdaten am häufigsten vorkommt.

2. Der „FLORES+Gender"-Test: Der Qualitäts-Check

Hier ist der Test andersherum.

Der Test: Man nimmt Sätze aus dem Spanischen oder Englischen, die entweder explizit männlich oder explizit weiblich sind (z. B. „Der Fahrer" vs. „Die Fahrerin").
Die Frage: Wird die Übersetzung ins Baskische besser oder schlechter, je nachdem, ob das Originalwort männlich oder weiblich war?
Die Metapher: Es ist wie ein Koch, der ein Rezept kocht. Wenn das Rezept „Hähnchen" sagt, schmeckt es vielleicht besser als wenn es „Hühnchen" sagt, nur weil der Koch mehr Übung mit dem ersten Wort hatte.

Das Ergebnis: Bei manchen Systemen sind die Übersetzungen etwas besser, wenn das Originalwort männlich war. Das liegt daran, dass die KI mehr „Übung" mit männlichen Formen hat. Bei weiblichen Formen stolpern sie manchmal mehr.

Was haben die Forscher herausgefunden?

Der „Mann als Standard"-Effekt: Fast alle getesteten KI-Modelle (sowohl die großen von Google/OpenAI als auch die kleineren) übersetzen geschlechtsneutrale Baskische Berufe lieber als männlich. Selbst wenn die Statistik sagt: „Das ist ein Frauenberuf", sagt die KI: „Nein, ich mache es männlich."
Die Realität wird ignoriert: Die KI passt sich nicht an die echte Welt an. Sie folgt ihren alten, voreingenommenen Mustern aus dem Internet.
Unterschiede zwischen den Modellen: Einige Modelle (wie die, die speziell für das Baskische trainiert wurden) machen es etwas besser als die ganz allgemeinen Modelle, aber das Problem ist immer noch da.

Warum ist das wichtig?

Stellen Sie sich vor, Sie nutzen eine KI, um Stellenanzeigen zu übersetzen oder Nachrichten zu generieren. Wenn die KI ständig sagt „Der Arzt" statt „Die Ärztin" oder „Die Sekretärin" statt „Der Sekretär", dann verstärkt sie unbewusst das Bild, dass Männer die Norm sind und Frauen die Ausnahme.

Diese Studie zeigt: Auch wenn eine Sprache wie das Baskische keine Geschlechter hat, können die KI-Systeme, die diese Sprache verarbeiten, trotzdem Vorurteile aus anderen Sprachen (wie Spanisch oder Englisch) „einschleppen".

Fazit in einem Satz

Die KI ist wie ein Schüler, der zu viel alte Bücher gelesen hat und denkt, die Welt sei anders, als sie heute wirklich ist; diese neuen Tests helfen uns, genau zu sehen, wo dieser Schüler noch lernen muss, um fairer zu werden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Gender Bias in MT for a Genderless Language: New Benchmarks for Basque" auf Deutsch:

Problemstellung

Große Sprachmodelle (LLMs) und maschinelle Übersetzungssysteme (MT) neigen dazu, Geschlechterverzerrungen (Gender Bias) aus ihren Trainingsdaten zu reproduzieren. Die meisten bestehenden Evaluierungsressourcen für solche Verzerrungen sind jedoch auf Englisch und den damit verbundenen soziokulturellen Kontext zugeschnitten. Dies schränkt ihre Anwendbarkeit auf andere Sprachen ein, insbesondere auf:

Sprachen mit geringen Ressourcen (Low-Resource Languages): Für diese fehlen oft spezialisierte Benchmarks.
Sprachen ohne grammatisches Geschlecht (Genderless Languages): Wie das Baskische (Euskara). Da das Baskische keine grammatikalischen Geschlechter (maskulin/feminin) kennt und geschlechtsneutrale Pronomen verwendet, können herkömmliche Evaluierungsmethoden, die auf expliziten Geschlechtermarkern (z. B. Pronomen) basieren, nicht direkt angewendet werden.

Das Ziel der Arbeit ist es, diese Lücke zu schließen, indem neue Datensätze und Evaluierungsmethoden entwickelt werden, um Geschlechterverzerrungen in Systemen zu messen, die das Baskische involvieren.

Methodik und neue Ressourcen

Die Autoren stellen zwei neue Datensätze vor, die maschinelles Übersetzen als Rahmen nutzen, um Bias in beide Richtungen zu untersuchen:

1. WinoMTeus (Basque $\rightarrow$ Geschlechtssprachen)

Ziel: Untersuchung, wie geschlechtsneutrale Berufsbezeichnungen im Baskischen in geschlechtsspezifische Zielsprachen (Spanisch, Französisch) übersetzt werden.
Aufbau: Das Dataset adaptiert den bestehenden WinoMT-Benchmark. Es enthält 1.827 Sätze auf Baskisch mit geschlechtsneutralen Berufserwähnungen.
Prozess:
- Erstellung eines Glossars mit 78 Berufen, die kulturell und linguistisch angepasst sind.
- Übersetzung und manuelle Nachbearbeitung (Post-Editing) unter Berücksichtigung kultureller Anpassungen (z. B. Währung, Notrufnummern).
- Evaluierung: Die Übersetzungen werden maschinell erstellt, und die Geschlechter der Berufsbezeichnungen im Zieltext werden extrahiert. Diese Verteilung wird mit offiziellen Arbeitsmarktstatistiken des Baskischen Landes (Lanbide) verglichen.
Metriken: Pearson-Korrelation zwischen Modell-Output und Realitätsdaten sowie die GRAPE-Metrik (Gender RAtion Probabili-tiEs), um die Richtung und Stärke der Verzerrung zu quantifizieren.

2. FLORES+Gender (Geschlechtssprachen $\rightarrow$ Baskisch)

Ziel: Untersuchung, ob die Übersetzungsqualität in das Baskische variiert, je nachdem, ob der Ausgangstext (Spanisch oder Englisch) einen männlichen oder weiblichen Referenten enthält.
Aufbau: Basierend auf dem FLORES+-Benchmark. Es werden kontrastive Paare erstellt: Ein Satz wird einmal mit männlichen und einmal mit weiblichen Markierungen (z. B. Namen, Pronomen, Artikel) versehen, wobei die semantische Äquivalenz gewahrt bleibt.
Annotation: Die Sätze wurden manuell annotiert für:
- ME: Mehrere geschlechtsspezifische Entitäten.
- PN: Eigennamen.
- UM: Unmarkierte maskuline Formen (nur im Spanischen relevant, z. B. los investigadores vs. las investigadoras).
Evaluierung: Übersetzungsqualität wird mit automatischen Metriken (chrF++, TER) verglichen, um statistisch signifikante Unterschiede zwischen den männlichen und weiblichen Subsets zu finden.

Experimentelles Setup

Die Autoren evaluierten eine breite Palette an Modellen:

Allgemeine LLMs: Latxa 3.1 (8B/70B), Llama 3.1, GPT-5, Claude 4 Sonnet, DeepSeek-V3.2.
Open-Source NMT-Modelle: MADLAD-400, NLLB-200, HiTZ Center Modelle.
Proprietäre Dienste: Google Translate, Elia, Batua, Itzuli.

Ergebnisse

1. Bias bei der Übersetzung aus dem Baskischen (WinoMTeus)

Systematische Bevorzugung des Maskulinums: Alle getesteten Modelle zeigen eine starke Tendenz, geschlechtsneutrale Berufe im Baskischen in die maskuline Form im Spanischen/Französischen zu übersetzen.
Diskrepanz zur Realität: Selbst Berufe, die in der Realität im Baskischen fast ausschließlich von Frauen ausgeübt werden (z. B. Housekeeper mit 96,5 % Frauenanteil), werden von den Modellen häufig maskulin übersetzt.
Korrelation: Es gibt eine moderate positive Korrelation zwischen den Modell-Outputs und den realen Arbeitsmarktstatistiken (insbesondere bei spezialisierten Übersetzungsmodellen wie NLLB-200 und GPT-5), aber die Modelle übertreiben die maskuline Standardform deutlich.
Ausnahmen: Die einzige Berufsbezeichnung, die konsistent weiblich übersetzt wurde, war „Krankenschwester" (Enfermera), was jedoch auf lexikalische Konventionen zurückzuführen sein könnte.

2. Einfluss des Geschlechts auf die Übersetzungsqualität (FLORES+Gender)

Spanisch $\rightarrow$ Baskisch: Es gab eine leichte Tendenz, dass Modelle bei männlichen Referenten bessere Übersetzungsqualität (höhere chrF++-Werte) erzielten, insbesondere bei Sätzen mit unmarkierten maskulinen Formen (Generic Masculine). Diese Unterschiede waren jedoch oft nicht statistisch signifikant, mit Ausnahme des Systems Batua.
Englisch $\rightarrow$ Baskisch: Hier zeigten sich keine konsistenten Muster; einige Modelle performten bei weiblichen Sätzen besser, andere bei männlichen.
Einflussfaktoren: Die Anwesenheit mehrerer geschlechtsspezifischer Entitäten oder Eigennamen hatte in einigen Fällen signifikante Auswirkungen auf die Performance, wobei maskuline Kontexte oft bevorzugt wurden.

Hauptbeiträge

Neue Benchmarks: Einführung von WinoMTeus und FLORES+Gender als erste spezialisierten Ressourcen zur Evaluierung von Gender-Bias im Kontext des Baskischen.
Methodische Innovation: Demonstration, wie maschinelles Übersetzen genutzt werden kann, um Bias in geschlechtslosen Sprachen zu messen, indem man die „Übersetzungslücke" (die Notwendigkeit, ein Geschlecht im Zieltext zu wählen) ausnutzt.
Realitätsbezug: Erstmals wurde die Verteilung der generierten Übersetzungen direkt mit offiziellen demografischen Daten (Arbeitsmarktstatistiken) verglichen, um die Verzerrung zu quantifizieren.
Umfassende Evaluation: Vergleich von LLMs, Open-Source-NMT und proprietären Diensten in beiden Übersetzungsrichtungen.

Bedeutung und Fazit

Die Studie zeigt, dass Geschlechterverzerrungen tief in modernen Sprachmodellen verankert sind, selbst wenn die Quellsprache (Baskisch) kein grammatisches Geschlecht besitzt. Die Modelle neigen dazu, den „maskulinen Standard" als Default-Wert zu verwenden, was zu einer Unterrepräsentation von Frauen in bestimmten Berufen führt.

Die Arbeit unterstreicht die Notwendigkeit, Evaluierungsmethoden zu entwickeln, die sowohl linguistische Merkmale als auch den soziokulturellen Kontext berücksichtigen. Da Bias kulturell geprägt ist, können englische Benchmarks nicht einfach auf andere Sprachen übertragen werden. Die vorgestellten Ressourcen bieten einen Rahmen, um fairenere Modelle für Minderheitensprachen zu entwickeln und zu evaluieren.

Einschränkungen: Die Studie behandelt Geschlecht primär binär (männlich/weiblich), was nicht-binäre Identitäten ausschließt. Zudem basieren einige Ergebnisse auf automatischen Metriken, die Nuancen möglicherweise nicht vollständig erfassen.

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Das Problem: Der „unsichtbare Vorurteil"-Filter

Die zwei neuen Werkzeuge (Die „Testkoffer")

1. Der „WinoMTeus"-Test: Der Berufswahlsimulator

2. Der „FLORES+Gender"-Test: Der Qualitäts-Check

Was haben die Forscher herausgefunden?

Warum ist das wichtig?

Fazit in einem Satz

Problemstellung

Methodik und neue Ressourcen

1. WinoMTeus (Basque →\rightarrow→ Geschlechtssprachen)

2. FLORES+Gender (Geschlechtssprachen →\rightarrow→ Baskisch)

Experimentelles Setup

Ergebnisse

1. Bias bei der Übersetzung aus dem Baskischen (WinoMTeus)

2. Einfluss des Geschlechts auf die Übersetzungsqualität (FLORES+Gender)

Hauptbeiträge

Bedeutung und Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

1. WinoMTeus (Basque $\rightarrow$ Geschlechtssprachen)

2. FLORES+Gender (Geschlechtssprachen $\rightarrow$ Baskisch)