MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages
Il paper introduce MultiWikiQA, un nuovo dataset di comprensione del testo generato con LLM e validato da valutazioni umane, che copre 306 lingue con oltre 1,2 milioni di campioni per valutare le prestazioni e le disparità linguistiche dei modelli attuali.