Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve metaforen om het begrijpelijk te maken.

De Grootte van de "Kloof" (Mind the Gap)

Stel je voor dat Grote Taalmodellen (LLMs) zoals ChatGPT of Gemini enorme, digitale bibliotheken zijn. Deze bibliotheken zijn gevuld met boeken, artikelen en gesprekken uit de hele wereld. Maar er is een groot probleem: de meeste boeken in deze bibliotheek zijn in het Engels geschreven en komen uit West-Europa en de VS.

De auteurs van dit onderzoek vragen zich af: "Wat gebeurt er als iemand in India, Thailand of Korea deze bibliotheek raadpleegt? Ziet de bibliotheek hen dan ook echt, of ziet ze ze alleen door een Westers raam?"

Het onderzoek focust zich op één heel gevoelige plek in de bibliotheek: religie. In het Westen is religie soms minder belangrijk, maar in veel Aziatische landen is het de kern van het dagelijks leven, net als de grond onder je voeten.

Het Experiment: Een Spiegel van de Maatschappij

De onderzoekers hebben een slim experiment gedaan. Ze hebben de "mening" van de AI laten vergelijken met de echte meningen van mensen.

De Menselijke Spiegel: Ze namen echte enquêtes (van het Pew Research Center) waarin duizenden mensen in Azië hun mening gaven over religie en maatschappelijke zaken. Dit is de waarheid.
De AI-Spiegel: Ze lieten de AI (zoals GPT-4o en Gemini) dezelfde vragen beantwoorden. Ze keken niet alleen naar het antwoord, maar ook naar hoe zeker de AI was van dat antwoord.
De Vergelijking: Ze maten hoe ver de "AI-spiegel" afweek van de "menselijke spiegel".

Wat Vonden Ze? De "Religieuze Brillen"

Hier zijn de belangrijkste ontdekkingen, vertaald naar alledaagse situaties:

Alles gaat goed, behalve bij religie: Als je de AI vraagt over politiek, economie of alledaagse dingen, denkt de AI heel goed mee met de mensen in Azië. Het is alsof de AI een goede vriend is die de lokale wetten kent.
Maar bij religie... is de bril scheef: Zodra het over geloof gaat, draait de AI de bril scheef. De AI geeft vaak een beeld van religie dat meer lijkt op wat er in het Westen wordt gedacht, of zelfs op negatieve stereotypen die op internet rondwaren.
- Voorbeeld: De AI denkt dat bepaalde religieuze groepen (zoals minderheden) vaker geassocieerd worden met geweld of problemen, terwijl de echte mensen in die landen dat niet zo zien. Het is alsof de AI een oude, verouderde krant leest in plaats van met de buren te praten.

De "Taal-Test": Helpt het om in het lokale dialect te praten?

De onderzoekers dachten: "Misschien helpt het als we de AI in het lokale taal (zoals Hindi, Thais of Koreaans) aanspreken in plaats van in het Engels?"

Het resultaat: Het helpt een beetje, maar niet genoeg.
- De Metafoor: Stel je voor dat je een robot hebt die Engels spreekt met een Amerikaans accent. Als je hem vraagt om in het Thais te praten, klinkt hij misschien netter, maar hij denkt nog steeds met een Amerikaans brein. Hij gebruikt soms de juiste woorden, maar de gevoelens en nuances blijven nog steeds "verkeerd" of onnauwkeurig.
- De AI wordt iets beter, maar de fundamentele "kloof" in hoe ze religie zien, verdwijnt niet.

De "Bias-Benchmarks": De Test op Stereotypen

De onderzoekers hebben de AI ook op een strenge test gezet, vergelijkbaar met een rijexamen voor vooroordelen.

Ze gaven de AI zinnen zoals: "Moslims zijn gewelddadig" versus "Moslims zijn vredig".
Het vervelende nieuws: De AI vond de negatieve zin (dat ze gewelddadig zijn) vaak "meer geloofwaardig" dan de positieve zin. Dit betekent dat de AI onbewust de negatieve stereotypes uit haar trainingsdata heeft overgenomen. Het is alsof de AI een hoedje draagt met een vooroordeel dat ze niet zelf heeft bedacht, maar dat ze heeft "geleerd" van de rest van het internet.

Waarom is dit zo belangrijk?

De auteurs waarschuwen dat we voorzichtig moeten zijn. Als we deze AI's overal in Azië gaan gebruiken (voor onderwijs, nieuws, of overheidszaken), kunnen we onbedoeld onrechtvaardigheid creëren.

Het is alsof je een leraar hebt die alleen boeken uit Amerika kent, maar die in een school in Bangkok lesgeeft. Hij zal de kinderen misschien verkeerd begrijpen en hen vertellen dat hun cultuur "anders" of "minder goed" is, simpelweg omdat hij de juiste boeken mist.

De Oplossing?

De paper zegt dat we niet kunnen wachten tot de AI vanzelf beter wordt. We moeten:

Echte audits doen: Regelmatig controleren of de AI de lokale cultuur echt begrijpt.
Meer lokale data: De AI moet meer boeken lezen die door lokale mensen zijn geschreven, niet alleen door Amerikanen.
Geen "one-size-fits-all": We moeten beseffen dat wat in New York werkt, niet automatisch werkt in New Delhi of Jakarta.

Kort samengevat: De AI is slim en spreekt veel talen, maar als het gaat over geloof en cultuur in Azië, kijkt ze nog steeds door een Westers raam. Ze moet leren om echt in de ogen van de lokale bevolking te kijken, anders blijven we een kloof overbruggen die eigenlijk niet bestaat.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion", geschreven in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker ingezet in meertalige en multiculturele omgevingen. Echter, deze modellen worden voornamelijk getraind op Engelstalige data, wat leidt tot een risico op misalignement met de culturele waarden van niet-Westerse samenlevingen. Hoewel er veel onderzoek is gedaan naar culturele alignement, concentreert dit zich bijna uitsluitend op Amerikaanse opinies en de Engelse taal.

Dit paper identificeert een kritiek gat: LLM's vertonen systematische vertekeningen wanneer ze worden geconfronteerd met gevoelige onderwerpen zoals religie in Aziatische landen (India, Oost-Azië en Zuidoost-Azië). In veel Aziatische landen is religie een centraal en politiek significant aspect van de samenleving, in tegenstelling tot de secularisatie in het Westen. Het paper stelt dat bestaande modellen niet alleen de meningen van minderheidsgroepen verkeerd representeren, maar ook negatieve stereotypen kunnen versterken, zelfs wanneer ze in lokale talen worden aangesproken.

Methodologie

De auteurs voeren een uitgebreide, meertalige audit uit van moderne LLM's (waaronder GPT-4o-Mini, Gemini-2.5-Flash, Llama 3.2, Mistral en Gemma 3) tegen de achtergrond van publieke opinie in 12 landen/territoria.

Ground Truth Data:
- De studie gebruikt hoogwaardige, nationaal representatieve surveydata van het Pew Research Center (onder het Pew-Templeton Global Religious Futures Project).
- Drie grote surveys worden gebruikt: Religion in India, Religion and Views of an Afterlife in East Asia, en Buddhism, Islam and Religious Pluralism in South and Southeast Asia.
- De vragen en antwoordopties, oorspronkelijk in lokale talen, zijn vertaald naar lokale talen via een crowdsourced, menselijke vertaalketen om semantische en culturele nauwkeurigheid te garanderen.
Evaluatie Framework:
- Model Opiniedistributie ( $D_M$ ): Voor elke surveyvraag wordt de kansverdeling van het model over de mogelijke antwoorden geëxtraheerd via log-probs of logits.
- Menselijke Opiniedistributie ( $D_O$ ): De surveyantwoorden worden gewogen op basis van demografische wegingen om een representatieve verdeling van de bevolking te vormen.
- Alignement Metrics: De auteurs gebruiken drie metrieken om de afstand tussen $D_M$ $D_{M}$ en $D_O$ $D_{O}$ te meten:
  - Jensen-Shannon Divergence (JSD): Meet dissimilariteit (lager is beter).
  - Hellinger Distance (HD): Meet dissimilariteit (lager is beter).
  - Wasserstein Distance (WD): Wordt gebruikt voor een "representativiteitscore" ( $R_M$ ) waarbij een hogere score (0-1) betere alignement aangeeft.
Bias Benchmarks:
Om concrete schade in downstream-taken te meten, worden vier cultureel bewuste benchmarks gebruikt:
- CrowS-Pairs: Voor het meten van stereotypering (gepaarde zinnen).
- IndiBias: Specifiek voor Zuid-Aziatische identiteiten (religie, kaste, etc.).
- ThaiCLI: Voor culturele en pragmatische alignement in het Thais.
- KoBBQ: Voor bias in Koreaanse vraag-antwoord taken.
Experimentele Variatie:
- Vergelijking van prompts in het Engels versus lokale talen.
- Testen van demografische priming (bijv. "Je bent een burger van...").
- Analyse van zowel gesloten (API) als open-weight modellen.

Belangrijkste Resultaten

Misalignement bij Religie:
- Modellen presteren over het algemeen goed op algemene sociale en politieke onderwerpen (representativiteitsscores >94%).
- Er is echter een significante daling in representativiteit bij religieuze onderwerpen (scores dalen naar ~89-90%).
- Modellen neigen ernaar om meningen van minderheidsgroepen (zoals Shia-moslims, Jains, Parsi's) verkeerd weer te geven en versterken vaak negatieve framing. Bijvoorbeeld, in IndiBias worden negatieve beschrijvingen van Shia- en Sunni-moslims als "meer plausibel" beoordeeld dan positieve.
Taal en Priming Interventies:
- Het gebruik van lokale talen voor prompts vermindert de divergentie (JSD) aanzienlijk in vergelijking met Engels, maar elimineert het probleem niet volledig.
- Demografische priming kan de output van het model iets dichter bij de doelgroep brengen, maar is geen oplossing voor de onderliggende vertekening.
- De Hellinger Distance blijft vaak weerbarstig tegenover taalveranderingen, wat suggereert dat fundamentele kansverschuivingen in het model niet eenvoudigweg door prompting kunnen worden gecorrigeerd.
Benchmarks en Stereotypering:
- CrowS-Pairs: GPT-4o-Mini toont een lage bias (~~8%) en hoge weerstand tegen stereotypen in alle talen. Gemini-2.5-Flash vertoont echter een hogere bias (~~16%) en meer ongeldige antwoorden, vooral in het Vietnamees.
- KoBBQ: Het specificeren van de context (disambiguatie) verbetert de nauwkeurigheid drastisch (van 61% naar 96%) en verlaagt de bias, wat aantoont dat prompt-specifiteit cruciaal is.
Modelverschillen:
- Open-weight modellen (Llama, Mistral, Gemma) vertonen vergelijkbare patronen van misrepresentatie als de gesloten API-modellen, met name in Oost- en Zuidoost-Azië.
- Soms is de misrepresentatie zo groot dat zelfs het gebruik van de lokale taal (bijv. Chinees voor Taiwan met Llama 3.2) geen significante verbetering oplevert (hoge JSD-waarden).

Belangrijkste Bijdragen

Multilinguale Audit Framework: Het paper introduceert een robuust framework voor het auditeren van LLM's tegen publieke opinie in niet-Westerse contexten, gebruikmakend van gewogen surveydata en logit-analyse.
Focus op Religie: Het identificeert religie als een kritieke "prisma" waar culturele misalignement het meest zichtbaar en schadelijk is, in tegenstelling tot bredere sociale kwesties.
Empirisch Bewijs van "Language Gap": Het bewijst dat meertaligheid alleen niet voldoende is voor culturele representativiteit; modellen kunnen vloeiend zijn in een taal maar toch de waarden van hun dominante (Engelse/Westerse) trainingsdata behouden.
Openbare Resources: De auteurs hebben hun codebase, vertaalde surveydata en resources openbaar gemaakt op GitHub om herhaalbaarheid en verder onderzoek te stimuleren.

Betekenis en Conclusie

De studie concludeert dat de huidige LLM's niet veilig of eerlijk kunnen worden ingezet in Aziatische samenlevingen zonder systematische, regionaal gebaseerde audits. De misalignement is diep geworteld in de trainingsdata en de alignement-processen (zoals RLHF), die vaak de meerderheidsperspectieven versterken ten koste van minderheden.

De auteurs waarschuwen dat het vertrouwen op "black-box" API's en simpele prompt-engineering onvoldoende is. Er is een urgente behoefte aan:

Gecurateerde, lokale trainingsdata die echte lokale normen en perspectieven weerspiegelen.
Diepere interventies zoals fine-tuning op cultureel specifieke data of activatie-engineering, in plaats van alleen oppervlakkige prompting.
Regionale audits voordat modellen wereldwijd worden ingezet, om te voorkomen dat AI-systemen bestaande vooroordelen versterken en minderheidsgroepen verder marginaliseren.

Kortom, "Mind the Gap" benadrukt dat technische meertaligheid niet gelijkstaat aan culturele competentie, en dat er een fundamentele verschuiving nodig is in hoe LLM's worden getraind en geëvalueerd voor een rechtvaardige globale implementatie.

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

De Grootte van de "Kloof" (Mind the Gap)

Het Experiment: Een Spiegel van de Maatschappij

Wat Vonden Ze? De "Religieuze Brillen"

De "Taal-Test": Helpt het om in het lokale dialect te praten?

De "Bias-Benchmarks": De Test op Stereotypen

Waarom is dit zo belangrijk?

De Oplossing?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance