Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep zeer slimme, maar nogal vooroordeelvolle robotgeesten hebt. Deze robots (we noemen ze Large Language Models of LLM's) zijn opgeleid met enorme hoeveelheden kennis uit de "Noordelijke wereld" (Europa en Noord-Amerika). Ze weten alles over de Eiffeltoren of de Super Bowl, maar als je ze vraagt over een traditioneel Latijns-Amerikaans feest of een lokale slangterm uit Chili, kijken ze je vaak met lege ogen aan. Ze zijn alsof iemand die alleen in Parijs heeft gewoond, denkt dat hij de hele wereld kent.

De auteurs van dit paper willen dit probleem oplossen, specifiek voor Latijns-Amerika. Ze hebben een nieuw testinstrument gebouwd, een soort "Cultuur-Quiz", om te zien hoe goed deze robots de lokale gewoonten, verhalen en tradities van Latijns-Amerika begrijpen.

Hier is hoe ze dat hebben gedaan, uitgelegd in simpele termen:

1. De Bibliotheek van de Wereld (Wikipedia & Wikidata)

Stel je voor dat Wikipedia een gigantische bibliotheek is, en Wikidata is het super-slimme indexsysteem dat alle boeken in die bibliotheek met elkaar verbindt. De onderzoekers hebben niet zelf duizenden vragen bedacht (dat zou te lang duren en te duur zijn). In plaats daarvan hebben ze een robot-schrijver ingezet om automatisch duizenden vragen te halen uit de Wikipedia-artikelen over Latijns-Amerika.

Ze hebben echter niet zomaar alles gepakt. Ze hebben een sociaal-wetenschappelijke filter gebruikt.

  • De analogie: Stel je voor dat je een grote emmer met stenen en goud wilt hebben. De meeste artikelen zijn gewoon stenen (bijvoorbeeld een lijst met alle voetbalclubs of een statistiek over een speler). De onderzoekers wilden alleen het goud: de artikelen die echt iets te maken hebben met cultuur, zoals eten, feestdagen, lokale dialecten, verhalen en symbolen. Ze hebben een "goudzoeker" (een gespecialiseerde AI) ingezet om de goudklompjes eruit te halen.

2. Het Bouwen van de Quiz (LatamQA)

Uit deze goudklompjes hebben ze een enorme quiz gemaakt: LatamQA.

  • Het bevat meer dan 26.000 vragen.
  • Het dekt 20 landen in Latijns-Amerika.
  • De vragen zijn in het Spaans en Portugees (de talen van de regio), maar ook vertaald naar het Engels om te testen of de robots het beter doen in hun "moedertaal" of in het Engels.

De vragen zijn als volgt: "Wat is de betekenis van dit specifieke liedje in Mexico?" of "Welke maagden worden er in Brazilië geëerd?" Het zijn geen moeilijke wiskundige puzzels, maar vragen die je zou verwachten van iemand die echt in die cultuur leeft.

3. De Testresultaten: Wat hebben ze ontdekt?

Toen ze deze quiz aan de verschillende robotgeesten gaven, kwamen ze tot drie interessante ontdekkingen:

  • De "Grootte" maakt uit, maar niet alles: Net als bij mensen, hoe "groot" en slim de robot is (hoeveel kennis hij heeft opgeslagen), hoe beter hij scoort. Maar zelfs de slimste robots hebben moeite met de kleinere landen.
  • De "Moedertaal" is koning: De robots presteerden veel beter als de vragen in het Spaans of Portugees stonden dan in het Engels. Het is alsof je iemand in het Frans vraagt over de Franse cultuur; hij begrijpt de nuances beter dan als je het in het Chinees vraagt.
  • Het "Iberische" vooroordeel: Dit is de meest opvallende ontdekking. De robots wisten veel meer over Spanje (Iberisch-Spaans) dan over Latijns-Amerika.
    • De analogie: Het is alsof je een robot vraagt over "Amerika". Hij denkt direct aan de Verenigde Staten en weet alles over New York, maar als je vraagt over Mexico of Argentinië, schudt hij met zijn hoofd. De robots zien "Spaans" vaak als "Spaans uit Spanje", en vergeten de rijke, diverse culturen van Latijns-Amerika.

4. Waarom is dit belangrijk?

Tot nu toe hadden we geen goede manier om te meten of robots vooroordelen hebben tegenover specifieke culturen. Deze quiz is als een spiegel die we voor de robots hebben gehouden.

Het laat zien dat als we AI-systemen alleen trainen op data uit de rijke, westerse wereld, ze "blind" blijven voor de rest van de wereld. Ze behandelen Latijns-Amerika als een één groot, vaag blok, terwijl het eigenlijk bestaat uit 20 unieke landen met elk hun eigen identiteit.

Kortom:
De onderzoekers hebben een gigantische, slimme quiz gebouwd met behulp van Wikipedia om te bewijzen dat onze slimme computers nog veel moeten leren over de echte wereld. Ze laten zien dat we niet kunnen vertrouwen op AI voor culturele kennis tenzij we specifiek trainen op die lokale kennis, anders blijven ze vastzitten in hun eigen, beperkte wereldbeeld.