A Systematic Analysis of Biases in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben vier sehr intelligente, aber noch sehr junge Assistenten in Ihrem Haus. Sie haben sie mit den Büchern der ganzen Welt gefüttert, damit sie alles wissen. Aber die Frage ist: Haben diese Assistenten auch die Vorurteile, die Vorlieben und die blinden Flecken der Menschen, die diese Bücher geschrieben haben?

Diese Studie von Forschern der Nanyang Technological University in Singapur hat genau das untersucht. Sie haben vier der bekanntesten „Künstlichen Intelligenzen" (LLMs) – genannt Qwen, DeepSeek, Gemini und GPT – wie Detektive unter die Lupe genommen.

Hier ist die einfache Erklärung der Ergebnisse, gemischt mit ein paar bildhaften Vergleichen:

1. Der politische Kompass: Sind sie neutral?

Stellen Sie sich vor, diese KI-Assistenten sollen eine Nachrichtensendung zusammenfassen. Die Idee ist, dass sie „neutral" sind, wie ein Schiedsrichter.

Das Ergebnis: Die meisten sind tatsächlich ziemlich fair. Aber wenn man ganz genau hinsieht, neigen sie leicht in eine Richtung.
Die Analogie: Stellen Sie sich vor, die KI ist ein Maler, der ein Bild von einem Streit zwischen zwei Parteien malt.
- Gemini malt das Bild eher so, als ob die rechte Seite recht hat (leicht rechts).
- GPT malt es eher so, als ob die linke Seite recht hat (leicht links).
- DeepSeek ist der beste Schiedsrichter: Er malt das Bild am neutralsten und ehrlichsten.
- Wichtig: Je besser die Zusammenfassung ist (je mehr Details sie trifft), desto mehr neigt sie oft zur „linken" Seite. Es ist, als ob die KI denkt: „Wenn ich es gut machen will, muss ich so klingen wie die linken Zeitungen."

2. Die Ideologie-Brille: Wie sehen sie die Welt?

Hier haben die Forscher die KIs gefragt, ob bestimmte Nachrichten „links", „rechts" oder „in der Mitte" sind. Besonders bei heiklen Themen wie Wahlen, Rassismus, Einwanderung oder LGBT-Rechten.

Das Ergebnis: Die KIs sind nicht immer gut darin, die feinen Unterschiede zu erkennen.
Die Analogie: Stellen Sie sich vor, die KIs sind wie Gäste auf einer Party, die versuchen, die Stimmung zu erraten.
- Gemini ist etwas verwirrt. Er sieht oft alles als „neutral" an, auch wenn es gar nicht neutral ist. Er versteht die Sprache der Rechten besser als die der Linken.
- GPT ist sehr sensibel für die Sprache der Linken und erkennt diese sofort, während er die Rechte manchmal übersieht.
- Qwen und DeepSeek versuchen es gut, verwechseln aber manchmal die Argumente der Linken und Rechten komplett.
- Besonderheit bei Einwanderung: Alle KIs scheinen die Argumente der Rechten zu diesem Thema nicht wirklich zu verstehen. Sie wirken hier eher konservativ, aber ohne die Nuancen der rechten Rhetorik zu begreifen.

3. Der Welt-Club: Wem geben sie Recht?

Die Forscher haben die KIs gebeten, wie ein Delegierter der Vereinten Nationen (UN) zu wählen. Sie mussten entscheiden, ob sie einer Resolution zustimmen oder nicht.

Das Ergebnis: Die KIs haben ihre eigenen „Freunde" und „Feinde" in der Welt.
Die Analogie: Stellen Sie sich eine große UN-Versammlung vor, bei der die KIs sitzen.
- Gemini ist der Freund der Länder in Lateinamerika und Afrika. Er stimmt mit ihnen oft überein. Interessanterweise stimmt er nicht mit den USA überein (was sehr selten ist!), sondern eher mit Ländern wie China oder Nordkorea.
- GPT hingegen stimmt oft mit den USA überein, lehnt aber viele andere Länder ab.
- Qwen und DeepSeek haben eine eigene Art zu denken, die oft im Widerspruch zu osteuropäischen Ländern steht.
- Fazit: Keine KI ist ein globaler Neutralitäts-Gott. Jede hat ihre eigene geopolitische „Herkunft".

4. Die Sprach-Maschine: Denken sie anders, je nach Sprache?

Die Forscher haben die KIs gebeten, Geschichten in 92 verschiedenen Sprachen zu schreiben. Die Geschichten handelten von fiktiven Stämmen, die nichts mit der echten Welt zu tun hatten.

Das Ergebnis: Überraschenderweise denken die KIs in den meisten Sprachen sehr unterschiedlich. Sie sind nicht nur „Englisch" in anderen Sprachen verpackt.
Die Analogie: Stellen Sie sich vor, die KI ist ein Schauspieler.
- Wenn er auf Englisch spricht, ist er ein bestimmter Typ.
- Wenn er auf Chinesisch oder Spanisch spricht, wird er zu einem ganz anderen Typ.
- Aber: Wenn die KIs in Sprachen aus dem südlichen Afrika sprechen, fangen sie an, genau wie auf Englisch zu denken. Das ist wie ein Schauspieler, der eine neue Sprache lernt, aber unbewusst immer noch die Gesten seiner Muttersprache macht. Das liegt daran, dass diese Sprachen in den Trainingsdaten weniger vertreten waren.

5. Die Geschlechter-Frage: Wessen Werte vertreten sie?

Hier haben die KIs einen großen Fragebogen (den „World Values Survey") beantwortet, den normalerweise Menschen ausfüllen. Die Forscher haben verglichen: Antworten die KIs eher wie Männer oder eher wie Frauen?

Das Ergebnis: Alle vier KIs antworten deutlich eher wie Frauen als wie Männer.
Die Analogie: Stellen Sie sich vor, die KIs sind in einem Raum mit 50 Männern und 50 Frauen. Wenn man sie fragt, was sie denken, stimmen sie fast immer mit den Frauen überein.
- GPT ist hier der extremste „Frauen-Vertreter".
- Sie neigen zu progressiven Werten (z. B. bei Abtreibung oder Euthanasie), die oft eher mit modernen Frauenwerten übereinstimmen als mit dem weltweiten Durchschnitt der Männer.
- Qwen und DeepSeek waren manchmal etwas verwirrt und gaben widersprüchliche Antworten, als hätten sie keine feste Meinung.

Das große Fazit: Warum ist das so?

Die Forscher sagen: Künstliche Intelligenz ist wie ein Spiegel.
Wenn wir Menschen in den Spiegel schauen, sehen wir unsere eigenen Vorurteile, unsere Fehler und unsere Vorlieben. Da diese KIs mit unseren Daten trainiert wurden (Bücher, Internet, Nachrichten), haben sie diese menschlichen Macken übernommen.

Selbst wenn wir versuchen, sie „fair" zu programmieren (durch menschliches Feedback), bleiben diese Vorurteile stecken. Es ist, als würde man einem Schüler sagen: „Sei fair!", aber der Lehrer selbst ist voreingenommen.

Die Botschaft für uns alle:
Wenn wir diese KIs nutzen, müssen wir uns bewusst machen, dass sie nicht „göttlich neutral" sind. Sie haben ihre eigenen kleinen Neigungen. Wir sollten sie nicht blind vertrauen, sondern sie wie einen sehr klugen, aber manchmal voreingenommenen Berater behandeln, dessen Meinung wir immer noch selbst prüfen müssen.

A Systematic Analysis of Biases in Large Language Models

1. Der politische Kompass: Sind sie neutral?

2. Die Ideologie-Brille: Wie sehen sie die Welt?

3. Der Welt-Club: Wem geben sie Recht?

4. Die Sprach-Maschine: Denken sie anders, je nach Sprache?

5. Die Geschlechter-Frage: Wessen Werte vertreten sie?

Das große Fazit: Warum ist das so?

Titel: Eine systematische Analyse von Verzerrungen in Large Language Models (LLMs)

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

A Systematic Analysis of Biases in Large Language Models

1. Der politische Kompass: Sind sie neutral?

2. Die Ideologie-Brille: Wie sehen sie die Welt?

3. Der Welt-Club: Wem geben sie Recht?

4. Die Sprach-Maschine: Denken sie anders, je nach Sprache?

5. Die Geschlechter-Frage: Wessen Werte vertreten sie?

Das große Fazit: Warum ist das so?

Titel: Eine systematische Analyse von Verzerrungen in Large Language Models (LLMs)

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study