MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages
Dit paper introduceert MultiWikiQA, een leesbegripbenchmark met meer dan 1,2 miljoen voorbeelden in 306 talen die door middel van LLM-generatie en menselijke evaluatie is opgezet om de prestaties van taalmodellen te testen en aanzienlijke verschillen tussen talen aan het licht te brengen.