Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Dit onderzoek onthult dat grote taalmodellen, ondanks algemene overeenstemming met maatschappelijke opinies, systematisch falen in het accuraat weergeven van religieuze perspectieven en minderheidsgroepen in Azië, waardoor ze vaak negatieve stereotypen versterken ondanks lichte mitigatie-inspanningen.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve metaforen om het begrijpelijk te maken.

De Grootte van de "Kloof" (Mind the Gap)

Stel je voor dat Grote Taalmodellen (LLMs) zoals ChatGPT of Gemini enorme, digitale bibliotheken zijn. Deze bibliotheken zijn gevuld met boeken, artikelen en gesprekken uit de hele wereld. Maar er is een groot probleem: de meeste boeken in deze bibliotheek zijn in het Engels geschreven en komen uit West-Europa en de VS.

De auteurs van dit onderzoek vragen zich af: "Wat gebeurt er als iemand in India, Thailand of Korea deze bibliotheek raadpleegt? Ziet de bibliotheek hen dan ook echt, of ziet ze ze alleen door een Westers raam?"

Het onderzoek focust zich op één heel gevoelige plek in de bibliotheek: religie. In het Westen is religie soms minder belangrijk, maar in veel Aziatische landen is het de kern van het dagelijks leven, net als de grond onder je voeten.

Het Experiment: Een Spiegel van de Maatschappij

De onderzoekers hebben een slim experiment gedaan. Ze hebben de "mening" van de AI laten vergelijken met de echte meningen van mensen.

  1. De Menselijke Spiegel: Ze namen echte enquêtes (van het Pew Research Center) waarin duizenden mensen in Azië hun mening gaven over religie en maatschappelijke zaken. Dit is de waarheid.
  2. De AI-Spiegel: Ze lieten de AI (zoals GPT-4o en Gemini) dezelfde vragen beantwoorden. Ze keken niet alleen naar het antwoord, maar ook naar hoe zeker de AI was van dat antwoord.
  3. De Vergelijking: Ze maten hoe ver de "AI-spiegel" afweek van de "menselijke spiegel".

Wat Vonden Ze? De "Religieuze Brillen"

Hier zijn de belangrijkste ontdekkingen, vertaald naar alledaagse situaties:

  • Alles gaat goed, behalve bij religie: Als je de AI vraagt over politiek, economie of alledaagse dingen, denkt de AI heel goed mee met de mensen in Azië. Het is alsof de AI een goede vriend is die de lokale wetten kent.
  • Maar bij religie... is de bril scheef: Zodra het over geloof gaat, draait de AI de bril scheef. De AI geeft vaak een beeld van religie dat meer lijkt op wat er in het Westen wordt gedacht, of zelfs op negatieve stereotypen die op internet rondwaren.
    • Voorbeeld: De AI denkt dat bepaalde religieuze groepen (zoals minderheden) vaker geassocieerd worden met geweld of problemen, terwijl de echte mensen in die landen dat niet zo zien. Het is alsof de AI een oude, verouderde krant leest in plaats van met de buren te praten.

De "Taal-Test": Helpt het om in het lokale dialect te praten?

De onderzoekers dachten: "Misschien helpt het als we de AI in het lokale taal (zoals Hindi, Thais of Koreaans) aanspreken in plaats van in het Engels?"

  • Het resultaat: Het helpt een beetje, maar niet genoeg.
    • De Metafoor: Stel je voor dat je een robot hebt die Engels spreekt met een Amerikaans accent. Als je hem vraagt om in het Thais te praten, klinkt hij misschien netter, maar hij denkt nog steeds met een Amerikaans brein. Hij gebruikt soms de juiste woorden, maar de gevoelens en nuances blijven nog steeds "verkeerd" of onnauwkeurig.
    • De AI wordt iets beter, maar de fundamentele "kloof" in hoe ze religie zien, verdwijnt niet.

De "Bias-Benchmarks": De Test op Stereotypen

De onderzoekers hebben de AI ook op een strenge test gezet, vergelijkbaar met een rijexamen voor vooroordelen.

  • Ze gaven de AI zinnen zoals: "Moslims zijn gewelddadig" versus "Moslims zijn vredig".
  • Het vervelende nieuws: De AI vond de negatieve zin (dat ze gewelddadig zijn) vaak "meer geloofwaardig" dan de positieve zin. Dit betekent dat de AI onbewust de negatieve stereotypes uit haar trainingsdata heeft overgenomen. Het is alsof de AI een hoedje draagt met een vooroordeel dat ze niet zelf heeft bedacht, maar dat ze heeft "geleerd" van de rest van het internet.

Waarom is dit zo belangrijk?

De auteurs waarschuwen dat we voorzichtig moeten zijn. Als we deze AI's overal in Azië gaan gebruiken (voor onderwijs, nieuws, of overheidszaken), kunnen we onbedoeld onrechtvaardigheid creëren.

  • Het is alsof je een leraar hebt die alleen boeken uit Amerika kent, maar die in een school in Bangkok lesgeeft. Hij zal de kinderen misschien verkeerd begrijpen en hen vertellen dat hun cultuur "anders" of "minder goed" is, simpelweg omdat hij de juiste boeken mist.

De Oplossing?

De paper zegt dat we niet kunnen wachten tot de AI vanzelf beter wordt. We moeten:

  1. Echte audits doen: Regelmatig controleren of de AI de lokale cultuur echt begrijpt.
  2. Meer lokale data: De AI moet meer boeken lezen die door lokale mensen zijn geschreven, niet alleen door Amerikanen.
  3. Geen "one-size-fits-all": We moeten beseffen dat wat in New York werkt, niet automatisch werkt in New Delhi of Jakarta.

Kort samengevat: De AI is slim en spreekt veel talen, maar als het gaat over geloof en cultuur in Azië, kijkt ze nog steeds door een Westers raam. Ze moet leren om echt in de ogen van de lokale bevolking te kijken, anders blijven we een kloof overbruggen die eigenlijk niet bestaat.