CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

本文介绍了 CricBench,这是首个针对板球分析的多语言 Text-to-SQL 基准测试,通过涵盖四种板球赛制和四种语言的 2654 个实例评估了七种主流大模型,揭示了它们在语法执行准确但语义理解严重不足、且缺乏特定领域主导模型的现状。

Parth Agarwal, Navya Kommuri, Trizal Garg, Prisha Singhal, Dhruv Shah, Vaibhav Devraj, Yash Sinha, Jagat Sesh Challa, Murari Mandal, Dhruv Kumar

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CricBench 的新项目,你可以把它想象成给人工智能(AI)举办的一场**“板球专家资格考试”**。

为了让你更容易理解,我们用一些生活中的比喻来拆解这项研究:

1. 背景:为什么需要这场考试?

现在的 AI(大语言模型)非常聪明,它们擅长把人类的自然语言翻译成数据库能听懂的“代码”(SQL)。这就像是一个翻译官,能把老板的口头指令变成 Excel 表格里的查询命令。

但是,目前的 AI 就像是一个通才:它们懂通用的商业知识(比如“查一下上个月销售额”),但一旦遇到板球这种极度专业、规则复杂且充满细节的领域,它们就有点“水土不服”了。板球迷想要问的问题非常刁钻,比如:“在 2010 年到 2015 年之间,在伦敦的某个特定球场,哪位击球手在雨天比赛中的平均得分最高?”

现有的 AI 虽然能写出语法正确的代码,但往往算不出正确的答案。为了测试 AI 到底有没有真本事,研究团队(来自印度的 BITS Pilani 大学等)创建了 CricBench

2. CricBench 是什么?

CricBench 是一个专门的测试题库,包含 2600 多道题目。

  • 覆盖范围广:它涵盖了板球的四种主要赛制(测试赛、ODI、T20I 和 IPL 联赛),就像考试涵盖了数学、物理、化学和生物一样。
  • 多语言挑战:题目不仅用英语,还用印地语、旁遮普语和泰卢固语。这模拟了真实场景:印度球迷可能用母语夹杂着英语术语(比如"Strike Rate")来提问。
  • 专家出题:这些题目不是机器生成的,而是由真正的板球专家和 SQL 专家人工编写的,确保题目逻辑严密,答案绝对正确。

3. 考试规则:只给“地图”,不给“攻略”

这是这项研究最有趣的地方。
通常,为了让 AI 答对题,我们会给它很多提示(比如“板球规则是这样的……")。但 CricBench 的规则是**“只给地图,不给攻略”**。

  • Schema-only prompting(仅模式提示):AI 只收到数据库的“结构图”(有哪些表、有哪些列),没有任何关于板球规则的解释,也没有任何示例。
  • 目的:这就好比给一个司机一张陌生的城市地图,问他怎么开车去某地,但不告诉他交通规则。我们想看看 AI 是真的懂板球逻辑,还是只是死记硬背了规则。

4. 考试成绩:令人失望的“高分低能”

研究团队测试了 7 种最顶尖的 AI 模型(包括 GPT-5 Mini, Claude, DeepSeek, Qwen 等)。结果非常惊人:

  • 语法满分,逻辑不及格

    • 执行准确率 (Execution Accuracy):AI 写出的代码几乎 100% 能运行,不会报错。就像学生写出的作文语法完美,标点正确。
    • 数据匹配准确率 (DMA):但只有不到 30% 的代码能算出正确答案。就像作文虽然通顺,但内容全是胡编乱造,完全没答到点子上。
    • 比喻:AI 就像一个只会照本宣科的实习生。它知道怎么打开数据库(语法对),但它不知道板球里“合法投球”和“非法投球”的区别,导致算出来的数据全是错的。
  • 没有“全能冠军”

    • 没有一个模型在所有赛制中都拿第一。有的模型擅长测试赛(Test),有的擅长 IPL 联赛。这说明不同的板球赛制对 AI 的逻辑推理能力提出了完全不同的挑战。
  • 巨大的“领域鸿沟”

    • 如果把同一批 AI 放在通用的商业数据库考试(BIRD 基准)中,它们能考到 60 分左右。
    • 但一进入板球领域,分数直接暴跌到 10 分左右。
    • 比喻:这就像让一个世界级的数学家去考板球裁判证。虽然他是数学天才(通用能力强),但他不懂板球规则(领域知识缺失),所以考不过。

5. AI 到底错在哪?

研究人员分析了 AI 的“错题本”,发现主要问题有三个:

  1. 幻觉(瞎编列名):AI 明明看着数据库结构图,却非要调用不存在的字段(比如编造一个 total_runs 列)。它太依赖自己脑子里的“常识”,反而忽略了眼前的“事实”。
  2. 算错公式:板球有很多特殊指标(如“经济率”),需要排除无效投球再计算。AI 经常漏掉这些过滤条件,导致结果偏差巨大。
  3. 搞不清关系:板球里球员会换队,不同年份归属不同国家队。AI 经常把球员和错误的队伍关联起来。

6. 总结与启示

CricBench 告诉我们一个残酷的真相
目前的 AI 虽然很强大,但它们**并不真正“理解”**像板球这样复杂的垂直领域。它们只是擅长模仿语法,一旦需要深度的领域推理,它们就“露馅”了。

  • 对未来的意义:这项研究为 AI 在体育分析、医疗、法律等专业领域的应用敲响了警钟。仅仅靠把模型做得更大(增加参数)或教它更多通用知识是不够的。
  • 下一步:我们需要给 AI 注入专门的领域知识,或者设计新的架构,让它们不仅能“写代码”,还能真正“懂规则”。

一句话总结
CricBench 就像一面照妖镜,照出了当前最聪明的 AI 在专业板球领域其实还是个“外行”——它们能流利地背诵规则书(语法正确),但真到了赛场上(实际计算),却连基本的判罚都搞不清楚。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →