A Systematic Analysis of Biases in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je vier nieuwe, superintelligente robot-assistenten hebt: Qwen, DeepSeek, Gemini en GPT. Ze zijn zo slim dat ze nieuws kunnen samenvatten, stemmen in de VN, verhalen schrijven en zelfs vragen over ethiek beantwoorden. Mensen vertrouwen ze vaak blindelings, alsof het neutrale, objectieve orakels zijn.

Maar deze studie van onderzoekers uit Singapore zegt: "Wacht even, laten we eens goed kijken of ze wel zo neutraal zijn als ze doen." Ze hebben deze vier robots een soort persoonlijkheidstest gegeven om te zien of ze onbewuste vooroordelen (bias) hebben.

Hier is wat ze vonden, vertaald naar simpele taal met een paar leuke vergelijkingen:

1. De Nieuwslezer (Politieke Bias)

De test: De robots kregen het nieuws te lezen en moesten het samenvatten alsof ze een neutrale journalist waren.
De vergelijking: Stel je voor dat je een verslag schrijft over een voetbalwedstrijd. Als je een beetje fan bent van het ene team, neig je misschien onbewust om te zeggen dat ze "gelukkig" speelden in plaats van "gelijk".
Het resultaat: De robots waren over het algemeen eerlijk, maar niet perfect.

Gemini leek een beetje te sympathiseren met de "rechtse" kant (net als iemand die onbewust de scheidsrechter iets meer gunstige fluitjes geeft voor het ene team).
GPT leek een klein beetje naar links te neigen.
DeepSeek was de meest neutrale van allemaal, alsof hij de wedstrijd keek alsof hij een echte scheidsrechter was die geen kant kiest.

2. De Ideologische Detector (Ideologische Bias)

De test: De robots moesten raden of een nieuwsartikel "links", "rechts" of "centrum" was, vooral over gevoelige onderwerpen zoals immigratie, abortus en homorechten.
De vergelijking: Het is alsof je iemand vraagt om de smaak van een gerecht te beschrijven. Als je niet goed kunt proeven, zeg je misschien dat een pittig gerecht "mild" is.
Het resultaat:

Gemini had moeite om de "pittigheid" van linkse argumenten te proeven. Hij zag vaak alles als "mild" (centrum) en neigde naar rechts.
GPT was juist heel gevoelig voor linkse signalen en neigde daar ook naartoe.
Qwen en DeepSeek waren soms verward en gaven het tegenovergestelde label, alsof ze de smaak van het gerecht helemaal niet konden onderscheiden.

3. De Wereldburger (Alliantie Bias)

De test: De robots moesten doen alsof ze afgevaardigden van de Verenigde Naties (VN) waren en stemmen over wereldproblemen.
De vergelijking: Stel je een grote wereldvergadering voor. Iedereen heeft een vriendengroep. Met wie stem je het vaakst mee?
Het resultaat:

Alle robots stemden het vaakst mee met landen in Latijns-Amerika en Afrika.
Gemini was de meest "echte" VN-afgevaardigde; hij stemde het meest overeen met echte mensen. Interessant genoeg stemde hij vaak tegen de VS en mee met landen als China en Noord-Korea.
GPT daarentegen stemde vaak fel tegen de landen waar de andere robots mee stemden. Het was alsof GPT een heel andere vriendengroep had.

4. De Verteller (Taal Bias)

De test: De robots moesten een verhaal schrijven over een fictieve stam in een taal die ze niet echt kenden (zoals een taal uit Zuid-Afrika), en dan in het Engels.
De vergelijking: Stel je voor dat je droomt in een andere taal. Droom je dan in een andere stijl, of denk je nog steeds zoals je normaal doet?
Het resultaat:

De robots dachten niet echt "anders" als ze in een andere taal schreven. Ze bleven denken in hun eigen "hoofd".
Interessant: Als ze in Zuid-Afrikaanse talen schreven, dachten ze op een manier die erg leek op hoe ze in het Engels dachten. Alsof ze die taal hebben geleerd, maar hun "denkpatroon" nog steeds Engels is. Ze waren niet echt ondergedompeld in de cultuur van die taal.

5. De Man-Vrouw Test (Gender Bias)

De test: De robots kregen vragen over wat belangrijk is in het leven (zoals "is het belangrijk om een goede moeder te zijn?" of "is euthanasie goed?"), zonder dat ze een geslacht kregen toegewezen.
De vergelijking: Het is alsof je vraagt aan een robot: "Wat zou een gemiddelde mens vinden?" en je kijkt of het antwoord meer lijkt op wat mannen of vrouwen in de echte wereld antwoorden.
Het resultaat:

Alle vier de robots neigden sterk naar de antwoorden van vrouwen. Ze waren vaak progressiever en meer gericht op waarden die vrouwen in de wereldwijde enquête (World Values Survey) aanhangen.
GPT was hier het duidelijkst in: hij leek het meest op een vrouwelijke stem en het minst op een mannelijke.
Qwen en DeepSeek waren soms wat wisselvallig, alsof ze niet zeker wisten wat ze moesten denken (bijvoorbeeld over immigratie).

Conclusie: De "Spiegel" is niet perfect

De grote les van dit onderzoek is: AI is niet neutraal.

Deze robots zijn getraind op enorme hoeveelheden tekst van mensen. Omdat mensen zelf vooroordelen hebben, hebben de robots die ook overgenomen. Het is alsof je een spiegel hebt die niet perfect recht is; hij toont je wel je gezicht, maar een beetje vervormd.

De onderzoekers zeggen: "We moeten beseffen dat deze robots hun eigen 'persoonlijkheid' en voorkeuren hebben. Als we ze gebruiken om beslissingen te nemen of nieuws te lezen, moeten we onthouden dat ze niet altijd de waarheid spreken, maar soms hun eigen 'gekleurde bril' op hebben."

Het is een waarschuwing: vertrouw niet blindelings op de machine, want de machine is gemaakt door mensen, en mensen zijn niet perfect.

A Systematic Analysis of Biases in Large Language Models

1. De Nieuwslezer (Politieke Bias)

2. De Ideologische Detector (Ideologische Bias)

3. De Wereldburger (Alliantie Bias)

4. De Verteller (Taal Bias)

5. De Man-Vrouw Test (Gender Bias)

Conclusie: De "Spiegel" is niet perfect

Titel: Een Systematische Analyse van Biases in Grootte Taalmodellen (LLMs)

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Significantie en Conclusie

A Systematic Analysis of Biases in Large Language Models

1. De Nieuwslezer (Politieke Bias)

2. De Ideologische Detector (Ideologische Bias)

3. De Wereldburger (Alliantie Bias)

4. De Verteller (Taal Bias)

5. De Man-Vrouw Test (Gender Bias)

Conclusie: De "Spiegel" is niet perfect

Titel: Een Systematische Analyse van Biases in Grootte Taalmodellen (LLMs)

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Significantie en Conclusie

Meer zoals dit

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study