Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America
Ce papier présente la création de la base de données LatamQA, un ensemble de plus de 26 000 questions à choix multiples en espagnol et portugais dérivé de Wikidata et de Wikipédia, utilisé pour révéler les biais socioculturels et géographiques des grands modèles de langage envers les pays d'Amérique latine par rapport à l'Espagne.
Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL