Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America
Die Studie nutzt Wikidata und Wikipedia, um einen mehrsprachigen Datensatz mit über 26.000 Fragen zu lateinamerikanischen soziokulturellen Themen zu erstellen, mit dem sich nachweisen lässt, dass große Sprachmodelle bei der Behandlung lateinamerikanischer Kulturen im Vergleich zur iberischen spanischen Kultur sowie in den jeweiligen Originalsprachen signifikante Wissenslücken und Verzerrungen aufweisen.
Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL