Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America
Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.
Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL