Language Shapes Mental Health Evaluations in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom een AI anders reageert op Nederlands of Engels (en waarom dat belangrijk is voor mentale gezondheid)

Stel je voor dat je een zeer slimme, digitale psycholoog hebt die in twee talen spreekt: Engels en Chinees. Je zou denken dat deze AI, omdat het dezelfde "hersenen" heeft, precies hetzelfde zou denken en voelen, ongeacht welke taal je gebruikt. Maar dit onderzoek laat zien dat dit niet zo is. Het is alsof je dezelfde persoon vraagt om een oordeel te vellen, maar je doet dat eerst in een koud, zakelijk kantoor (Engels) en daarna in een warme, traditionele familiekring (Chinees). Het antwoord verandert, niet omdat de persoon anders is, maar omdat de context anders voelt.

Hier is wat de onderzoekers hebben ontdekt, vertaald naar alledaags taalgebruik:

1. De "Schaamte-Test": Hoe de AI over mentale gezondheid denkt

De onderzoekers hebben de AI (GPT-4o en Qwen3) een reeks vragen laten beantwoorden over mentale gezondheid, zoals depressie of angst. Ze gebruikten bekende vragenlijsten die meten hoeveel "stigma" (een negatief oordeel of schande) er tegenover mentale problemen bestaat.

De Analogie: Stel je voor dat je een groep mensen vraagt: "Zou je iemand met een depressie als buurman willen?"
- In het Engels antwoordde de AI: "Ja, dat is prima, geen probleem."
- In het Chinees antwoordde de AI: "Hmm, misschien liever niet, dat is wat ongemakkelijk."
Het Resultaat: De AI was in het Chinees veel strenger en negatiever. Ze toonde meer angst, meer schaamte en meer afstand. Of het nu ging over wat de maatschappij denkt, wat jij zelf zou denken, of wat een arts zou denken: in het Chinees was de AI kritischer en veroordelender dan in het Engels. Het is alsof de AI een andere "bril" opzet die in het Chinees donkerder is.

2. De "Alarmbel": Herkent de AI gevaar?

Vervolgens hebben ze de AI getest op haar vermogen om gevaarlijke of stigmatiserende teksten te herkennen (bijvoorbeeld in een chatgesprek).

De Analogie: Stel je voor dat de AI een brandweerman is die moet beslissen of er een brand is.
- In het Engels schreeuwt de brandweerman: "Brand! Brand!" zodra hij een vonk ziet.
- In het Chinees zegt hij: "Nou, het is misschien wel een vonk, maar laten we even wachten."
Het Resultaat: De AI was in het Chinees veel minder snel om te zeggen: "Dit is schadelijk of stigmatiserend." Ze negeerde meer rode vlaggen. Dit betekent dat als je een AI gebruikt om schadelijke content te filteren, die AI in het Chinees misschien veel meer giftige berichten laat passeren dan in het Engels.

3. De "Weegschaal": Hoe zwaar is de depressie?

Tot slot hebben ze de AI gevraagd om de ernst van depressie te beoordelen op basis van een verhaal.

De Analogie: Stel je voor dat je iemand op een weegschaal legt om hun gewicht te meten.
- In het Engels zegt de weegschaal: "Deze persoon weegt 80 kg (ernstig)."
- In het Chinees zegt dezelfde weegschaal: "Deze persoon weegt 60 kg (minder ernstig)."
Het Resultaat: De AI neigde er in het Chinees toe om de ernst van depressie te onderschatten. Ze zagen minder gevaar en minder zware symptomen dan er eigenlijk waren. Het is alsof de AI in het Chinees een "minimale" bril opzet die problemen kleiner maakt dan ze zijn.

Waarom is dit belangrijk?

Dit onderzoek is als een waarschuwing voor de wereld. We gebruiken AI steeds vaker om mensen te helpen met hun mentale gezondheid, om chatbots te maken, of om te beslissen wie hulp krijgt.

Het Gevaar: Als een AI in het Engels zegt: "Je hebt hulp nodig, dit is ernstig," maar in het Chinees zegt: "Het valt wel mee, maak je geen zorgen," dan krijgen mensen in die verschillende talen een heel ander lot.
De Leerles: Taal is niet alleen maar een vertaalsleutel; het is een bril die kleurt hoe de AI de wereld ziet. Als we AI systemen wereldwijd inzetten, moeten we beseffen dat ze niet in alle talen even eerlijk of even nauwkeurig zijn.

Kortom: Een AI is niet neutraal. De taal die je gebruikt, bepaalt hoe de AI oordeelt over je mentale gezondheid. In het Chinees (in dit onderzoek) was de AI strenger in zijn oordeel, maar ook minder alert op gevaar en geneigd om problemen kleiner te maken. Voor ontwikkelaars betekent dit: test je AI niet alleen in het Engels, maar in alle talen waarin je hem gebruikt, anders kun je onbedoeld mensen in de steek laten.

Language Shapes Mental Health Evaluations in Large Language Models

1. De "Schaamte-Test": Hoe de AI over mentale gezondheid denkt

2. De "Alarmbel": Herkent de AI gevaar?

3. De "Weegschaal": Hoe zwaar is de depressie?

Waarom is dit belangrijk?

Titel: Taal vormt mentale gezondheidsbeoordelingen in Grootte Taalmodellen (LLM's)

1. Het Probleem

2. Methodologie

Experimenteel Ontwerp

3. Belangrijkste Resultaten

A. Systematische Verschillen in Stigma-oriëntatie

B. Impact op Downstream Beslissingen

4. Belangrijkste Bijdragen

5. Significantie en Implicaties

Language Shapes Mental Health Evaluations in Large Language Models

1. De "Schaamte-Test": Hoe de AI over mentale gezondheid denkt

2. De "Alarmbel": Herkent de AI gevaar?

3. De "Weegschaal": Hoe zwaar is de depressie?

Waarom is dit belangrijk?

Titel: Taal vormt mentale gezondheidsbeoordelingen in Grootte Taalmodellen (LLM's)

1. Het Probleem

2. Methodologie

Experimenteel Ontwerp

3. Belangrijkste Resultaten

A. Systematische Verschillen in Stigma-oriëntatie

B. Impact op Downstream Beslissingen

4. Belangrijkste Bijdragen

5. Significantie en Implicaties

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models