Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对“冰岛语大模型考试”的突击检查。作者们发现，目前用来测试冰岛语人工智能（LLM）的很多“试卷”，质量非常差，甚至可以说是“假考题”。

为了让你更容易理解，我们可以把这篇论文的核心内容想象成一场**“谁在出题？谁在阅卷？”**的闹剧。

1. 核心比喻：用“翻译软件”出的“冰岛语数学题”

想象一下，你要测试一个学生的冰岛语水平。

理想情况：你找一位冰岛语母语老师，根据冰岛的文化、历史和语言习惯，亲自编写一套试卷。
现实情况（论文指出的问题）：为了省事和省钱，出题人直接拿一套美国的英语试卷，扔进机器翻译软件里，一键翻译成冰岛语，然后直接拿来当考题。

这就好比：
你让一个学生做数学题，题目是：“如果内华达州的降雨量很少，原因是什么？”

问题在于：内华达州离冰岛十万八千里，冰岛的孩子根本不知道内华达州在哪，也不知道那里的地理环境。
更糟糕的是：机器翻译不仅把地名翻错了，还把一些科学术语（比如“双鞭毛生物”）翻译成了冰岛语里根本不存在的词，或者把人名（如“路易·巴斯德”）强行改成了冰岛名字（“路易·古德蒙德松”），导致题目逻辑完全崩塌。

这篇论文就是告诉我们要：别拿这种“翻译过来的假考题”来衡量学生的真实水平！

2. 论文发现了什么“坑”？

作者们像侦探一样，仔细检查了冰岛语现有的几个主要排行榜（Leaderboards）上的题目，发现了三大类严重问题：

A. “机器翻译”的灾难 (The Machine Translation Trap)

很多题目是直接把英语题目“生搬硬套”翻译过来的。

比喻：就像把一本《美国烹饪指南》直接翻译成冰岛语，结果里面全是“火鸡”（Turkey，指动物），而冰岛人想问的是“土耳其”（Tyrkland，指国家）。机器翻译分不清这两个意思，导致题目荒谬可笑。
后果：模型（AI）可能因为猜到了翻译错误，或者根本看不懂题目，而给出错误答案。这测出来的不是它的智商，而是翻译软件的烂水平。

B. “合成数据”的幻觉 (The Synthetic Hallucination)

有些题目不是翻译的，而是让另一个 AI 自己“编”出来的（比如让 AI 从维基百科生成问答）。

比喻：这就像让一个还没毕业的小学生，去给另一个小学生出题。小学生的知识有限，编出来的题目可能事实错误（比如把不相关的人名和事件硬凑在一起），或者逻辑不通。
后果：AI 在做这些题时，可能是在“猜谜”，而不是在展示真正的理解能力。

C. “水土不服”的考题 (Cultural Mismatch)

有些题目虽然语法没错，但文化背景完全不对。

比喻：就像给冰岛人出关于“感恩节”或“美式橄榄球”的阅读理解题。冰岛人可能连感恩节是什么都不知道，更别提理解其中的文化梗了。
后果：这测不出冰岛语模型的能力，只能测出它是否“懂英语文化”。

3. 作者们的“体检报告”

作者们随机抽取了这些试卷的一部分，找了几位冰岛语专家（母语者）来批改。结果令人震惊：

机器翻译的试卷：大部分题目都有严重错误，有的甚至完全无法理解。比如，有的题目里重复了 399 次“气体”这个词，或者把科学术语翻译得面目全非。
人类编写的试卷：虽然也有小瑕疵，但整体质量高得多，逻辑通顺，符合冰岛人的语言习惯。

结论是：如果你用那些全是机器翻译或 AI 生成的“烂试卷”来给 AI 打分，分数再高也是虚的。这就像用一把刻度不准的尺子去量身高，量出来再高也没用。

4. 他们想说什么？（给未来的建议）

这篇论文最后给所有做语言研究的人提了三个醒：

别偷懒用机器翻译：如果要测冰岛语，最好找冰岛人出题，或者至少找冰岛人仔细检查机器翻译的结果。
母语者必须参与：就像做菜必须尝味道一样，出题必须有母语者把关。没有母语者参与的“合成数据”，就像没有放盐的菜，看着像那么回事，吃起来没味儿（甚至有毒）。
谁出题，谁负责：出题的人不能做完就扔。必须不断检查、修正，确保题目是“对的”，而且是为了“正确的理由”而对的（Construct Validity）。

总结

这篇论文就像是一个**“吹哨人”**。它大声疾呼：在冰岛语（以及很多其他小语种）的 AI 领域，我们现在的考试太水了！

如果我们继续用这些充满错误、翻译生硬、文化错乱的“假考题”来训练和评估 AI，我们不仅会误判 AI 的能力，甚至可能让 AI 学会错误的冰岛语，最终产生一些荒谬甚至有害的结果。

一句话总结：要想测出 AI 的冰岛语水平，得先给 AI 出一套由冰岛人亲自编写、经过严格审核的“真考题”，而不是拿一堆机器翻译的“乱码”来糊弄人。

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

1. 核心比喻：用“翻译软件”出的“冰岛语数学题”

2. 论文发现了什么“坑”？

A. “机器翻译”的灾难 (The Machine Translation Trap)

B. “合成数据”的幻觉 (The Synthetic Hallucination)

C. “水土不服”的考题 (Cultural Mismatch)

3. 作者们的“体检报告”

4. 他们想说什么？（给未来的建议）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键发现与结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与启示 (Significance)

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

1. 核心比喻：用“翻译软件”出的“冰岛语数学题”

2. 论文发现了什么“坑”？

A. “机器翻译”的灾难 (The Machine Translation Trap)

B. “合成数据”的幻觉 (The Synthetic Hallucination)

C. “水土不服”的考题 (Cultural Mismatch)

3. 作者们的“体检报告”

4. 他们想说什么？（给未来的建议）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键发现与结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context