Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep zeer slimme, maar nogal vooroordeelvolle robotgeesten hebt. Deze robots (we noemen ze Large Language Models of LLM's) zijn opgeleid met enorme hoeveelheden kennis uit de "Noordelijke wereld" (Europa en Noord-Amerika). Ze weten alles over de Eiffeltoren of de Super Bowl, maar als je ze vraagt over een traditioneel Latijns-Amerikaans feest of een lokale slangterm uit Chili, kijken ze je vaak met lege ogen aan. Ze zijn alsof iemand die alleen in Parijs heeft gewoond, denkt dat hij de hele wereld kent.

De auteurs van dit paper willen dit probleem oplossen, specifiek voor Latijns-Amerika. Ze hebben een nieuw testinstrument gebouwd, een soort "Cultuur-Quiz", om te zien hoe goed deze robots de lokale gewoonten, verhalen en tradities van Latijns-Amerika begrijpen.

Hier is hoe ze dat hebben gedaan, uitgelegd in simpele termen:

1. De Bibliotheek van de Wereld (Wikipedia & Wikidata)

Stel je voor dat Wikipedia een gigantische bibliotheek is, en Wikidata is het super-slimme indexsysteem dat alle boeken in die bibliotheek met elkaar verbindt. De onderzoekers hebben niet zelf duizenden vragen bedacht (dat zou te lang duren en te duur zijn). In plaats daarvan hebben ze een robot-schrijver ingezet om automatisch duizenden vragen te halen uit de Wikipedia-artikelen over Latijns-Amerika.

Ze hebben echter niet zomaar alles gepakt. Ze hebben een sociaal-wetenschappelijke filter gebruikt.

De analogie: Stel je voor dat je een grote emmer met stenen en goud wilt hebben. De meeste artikelen zijn gewoon stenen (bijvoorbeeld een lijst met alle voetbalclubs of een statistiek over een speler). De onderzoekers wilden alleen het goud: de artikelen die echt iets te maken hebben met cultuur, zoals eten, feestdagen, lokale dialecten, verhalen en symbolen. Ze hebben een "goudzoeker" (een gespecialiseerde AI) ingezet om de goudklompjes eruit te halen.

2. Het Bouwen van de Quiz (LatamQA)

Uit deze goudklompjes hebben ze een enorme quiz gemaakt: LatamQA.

Het bevat meer dan 26.000 vragen.
Het dekt 20 landen in Latijns-Amerika.
De vragen zijn in het Spaans en Portugees (de talen van de regio), maar ook vertaald naar het Engels om te testen of de robots het beter doen in hun "moedertaal" of in het Engels.

De vragen zijn als volgt: "Wat is de betekenis van dit specifieke liedje in Mexico?" of "Welke maagden worden er in Brazilië geëerd?" Het zijn geen moeilijke wiskundige puzzels, maar vragen die je zou verwachten van iemand die echt in die cultuur leeft.

3. De Testresultaten: Wat hebben ze ontdekt?

Toen ze deze quiz aan de verschillende robotgeesten gaven, kwamen ze tot drie interessante ontdekkingen:

De "Grootte" maakt uit, maar niet alles: Net als bij mensen, hoe "groot" en slim de robot is (hoeveel kennis hij heeft opgeslagen), hoe beter hij scoort. Maar zelfs de slimste robots hebben moeite met de kleinere landen.
De "Moedertaal" is koning: De robots presteerden veel beter als de vragen in het Spaans of Portugees stonden dan in het Engels. Het is alsof je iemand in het Frans vraagt over de Franse cultuur; hij begrijpt de nuances beter dan als je het in het Chinees vraagt.
Het "Iberische" vooroordeel: Dit is de meest opvallende ontdekking. De robots wisten veel meer over Spanje (Iberisch-Spaans) dan over Latijns-Amerika.
- De analogie: Het is alsof je een robot vraagt over "Amerika". Hij denkt direct aan de Verenigde Staten en weet alles over New York, maar als je vraagt over Mexico of Argentinië, schudt hij met zijn hoofd. De robots zien "Spaans" vaak als "Spaans uit Spanje", en vergeten de rijke, diverse culturen van Latijns-Amerika.

4. Waarom is dit belangrijk?

Tot nu toe hadden we geen goede manier om te meten of robots vooroordelen hebben tegenover specifieke culturen. Deze quiz is als een spiegel die we voor de robots hebben gehouden.

Het laat zien dat als we AI-systemen alleen trainen op data uit de rijke, westerse wereld, ze "blind" blijven voor de rest van de wereld. Ze behandelen Latijns-Amerika als een één groot, vaag blok, terwijl het eigenlijk bestaat uit 20 unieke landen met elk hun eigen identiteit.

Kortom:
De onderzoekers hebben een gigantische, slimme quiz gebouwd met behulp van Wikipedia om te bewijzen dat onze slimme computers nog veel moeten leren over de echte wereld. Ze laten zien dat we niet kunnen vertrouwen op AI voor culturele kennis tenzij we specifiek trainen op die lokale kennis, anders blijven ze vastzitten in hun eigen, beperkte wereldbeeld.

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

1. De Bibliotheek van de Wereld (Wikipedia & Wikidata)

2. Het Bouwen van de Quiz (LatamQA)

3. De Testresultaten: Wat hebben ze ontdekt?

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

1. De Bibliotheek van de Wereld (Wikipedia & Wikidata)

2. Het Bouwen van de Quiz (LatamQA)

3. De Testresultaten: Wat hebben ze ontdekt?

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models