Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）当“考官”时，发现了一个令人头疼的**“薛定谔的分数”**现象。

简单来说，作者做了一项研究，发现当我们让不同的 AI 模型去给同一个答案打分时，即使输入完全一样，AI 给出的分数却经常不一样，甚至同一个 AI 自己前后打分也不一致。

为了让你更轻松地理解，我们可以把这篇论文的核心内容想象成一场**“超级严格的考试”，而 AI 就是那些“阅卷老师”**。

1. 背景：为什么我们需要 AI 当阅卷老师？

以前，我们要检查成千上万份学生作业（比如客服回答、AI 生成的文章），只能靠人工一个个看，太慢太贵了。现在，我们请来了“超级 AI 阅卷老师”（LLM-as-a-judge）。它们速度快、不知疲倦，能瞬间给出一份作业打分，告诉你是“优秀”还是“不及格”。

但是，大家开始担心：这些 AI 老师靠谱吗？它们今天心情好给 90 分，明天心情不好给 60 分吗？

2. 实验：一场“重复考试”

作者找了 5 位著名的"AI 老师”（来自 OpenAI 的 GPT 系列、Google 的 Gemini 系列、Anthropic 的 Claude 系列），让它们去批改同一批真实的“企业级问答”（就像真实的客户咨询）。

作者设置了两个“考试环境”：

冷静模式（Temperature=0）： 理论上，AI 应该像机器一样，每次看到同样的题，都给出完全一样的答案。
随机模式（Temperature=1）： 允许 AI 发挥一点“创造力”，答案可能会变来变去。

结果让人大跌眼镜：
即使是**“冷静模式”，这些 AI 老师也没有**做到完全一致！

同一个老师，同一次考试： 让 GPT-4o 批改同一道题 10 次，它可能第一次打 0.8 分，第二次打 0.5 分，第三次又打 0.9 分。
不同的老师，同一次考试： 同一道题，GPT 觉得是满分，Claude 可能觉得只有一半分，Gemini 可能觉得完全不行。

3. 核心发现：三个“怪现象”

怪现象一：连“满分”都拿不稳（内部不一致）

这就好比一个数学老师，今天批改你的试卷，因为手抖多算了一分，明天又少算了一分。

最严重的领域是“完整性”（Completeness）： 也就是看答案有没有把话说全。在这个指标上，AI 们的分数波动最大。
即使是“冷静模式”也不行： 作者原本以为把温度调到 0（最冷静），AI 就会像计算器一样精准。但现实是，AI 依然会“手抖”。这就好比你让一个机器人走直线，它理论上应该走直线，但实际上它还是会偶尔歪一下。

怪现象二：老师的“口味”大不同（模型间差异）

不同的 AI 老师对“什么是好答案”有完全不同的理解。

例子 A（关于“能力”的误解）： 有一道题问“你能帮我做某事吗？”。GPT 和 Gemini 觉得：“哦，它解释了为什么不能做，很诚实，给高分！”但 Claude 却觉得：“它在推卸责任，没直接解决问题，给零分！”
例子 B（关于“完整”的定义）： 有一个答案解释了为什么无法提供图表。Gemini 觉得：“解释得很清楚，满分！”GPT 却觉得：“虽然解释了，但没给替代方案，只能给一半分。”
比喻： 这就像三个评委看同一场表演。评委 A 喜欢幽默，评委 B 喜欢技术，评委 C 喜欢情感。哪怕表演者没变，三个评委给出的分数天差地别。

怪现象三：降温也没用（温度的影响）

作者试图通过降低“温度”（让 AI 更冷静）来解决问题。

GPT 和 Gemini： 稍微冷静一点，它们就稳多了，分数波动变小。
Claude（Anthropic 家族）： 哪怕把温度降到 0，它们依然“情绪化”，分数该乱跳还是乱跳。
结论： 并不是所有 AI 老师都能通过“冷静下来”变得靠谱。

4. 这对我们意味着什么？（现实风险）

想象一下，你的公司用 AI 来自动处理客户投诉：

场景： 客户 A 发了一个投诉，AI 打分 0.9（严重），系统立刻把工单转给高级经理处理。
场景： 客户 B 发了一模一样的投诉，因为 AI 刚才“手抖”了，打分变成了 0.4（轻微），系统只转给了普通客服。

后果：

不公平： 同样的问题，不同的人得到了不同的待遇。
不可靠： 你无法预测系统下一秒会怎么反应。
甚至可能违法： 在医疗、法律或安全领域，这种“随机性”可能是灾难性的。

5. 总结与建议

这篇论文告诉我们：不要盲目信任 AI 给出的具体分数。

AI 不是计算器： 它们不是像 1+1=2 那样绝对确定的机器。它们更像是有自己“性格”和“心情”的艺术家。
稳定性比平均分更重要： 如果一个 AI 总是给 50 分（虽然低，但稳定），我们至少知道它不行，可以调整策略。但如果它一会儿给 10 分，一会儿给 90 分，我们就完全没法信任它了。
怎么办？
- 多重保险： 不要只依赖一个 AI 打分，可以多个 AI 一起评，或者让人类最后把关。
- 监控波动： 企业在使用 AI 评分时，不仅要盯着平均分，还要盯着“分数的波动范围”（标准差）。
- 格式也要稳： 有时候 AI 连分数的格式都写错（比如把"Score: 0.5"写成了"0.5 分”），导致系统解析失败。

一句话总结：
现在的 AI 阅卷老师虽然聪明，但它们不够“稳”。在把重要的业务决策（比如谁该被录用、哪个投诉该优先处理）交给它们之前，我们必须先给它们装上“稳定器”，或者时刻盯着它们，防止它们因为“心情不好”或“理解不同”而乱打分。

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. 背景：为什么我们需要 AI 当阅卷老师？

2. 实验：一场“重复考试”

3. 核心发现：三个“怪现象”

怪现象一：连“满分”都拿不稳（内部不一致）

怪现象二：老师的“口味”大不同（模型间差异）

怪现象三：降温也没用（温度的影响）

4. 这对我们意味着什么？（现实风险）

5. 总结与建议

论文技术总结：LLM 裁判评分的不一致性研究

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键发现与结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与启示 (Significance)

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. 背景：为什么我们需要 AI 当阅卷老师？

2. 实验：一场“重复考试”

3. 核心发现：三个“怪现象”

怪现象一：连“满分”都拿不稳（内部不一致）

怪现象二：老师的“口味”大不同（模型间差异）

怪现象三：降温也没用（温度的影响）

4. 这对我们意味着什么？（现实风险）

5. 总结与建议

论文技术总结：LLM 裁判评分的不一致性研究

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键发现与结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers