FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本文针对现有基准在评估企业级和 API 驱动场景下的指令遵循能力方面的不足,提出了基于真实业务模式的 FireBench 基准,该基准涵盖六大核心维度及 2400 多个样本,用于评估 11 种大语言模型在信息提取、客服及编码代理等场景中的表现,并开源以促进模型诊断与社区协作。

Yunfan Zhang, Yijie Bei, Jetashree Ravi, Pawel Garbacki

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FIREBENCH 的新工具,它的目的是给大语言模型(LLM)“体检”,特别是看它们在企业级API 自动化场景下,到底能不能“听话”。

为了让你更容易理解,我们可以把大语言模型想象成一个超级聪明的实习生,而 FIREBENCH 就是一份极其严格的“入职实操考试”

1. 为什么需要这个考试?(背景故事)

以前的考试(现有的评测基准),主要考的是实习生的“文采”和“聊天技巧”。

  • 旧考试:问实习生“写一首关于春天的诗,要 50 个字,语气要悲伤”。
  • 现实问题:在企业里,老板不需要你写诗,老板需要的是:“把这份合同里的金额提取出来,必须是 JSON 格式,必须按时间顺序排列,不能包含任何多余的解释,如果找不到金额就必须说‘不知道’,绝对不能编造。”

如果实习生在旧考试里拿了满分,但在实际工作中因为格式错了一个括号,导致整个公司的自动化系统崩溃,那他的“聪明”就毫无用处。现有的考试没考到这些“死板但致命”的要求。

2. FIREBENCH 考什么?(六大核心能力)

FIREBENCH 设计了 2400 多道题,专门模拟企业里最让人头疼的六种“听话”场景:

  1. 格式服从(Output Format Compliance)

    • 比喻:就像厨师做菜,老板说“菜必须装在红色的方形盘子里,不能是圆的,也不能用碗”。
    • 考点:模型能不能严格按照 JSON、XML 等特定格式输出?哪怕格式稍微变一点(比如多加个括号),它会不会就“晕”了?
  2. 顺序执行(Ordered Responses)

    • 比喻:就像点餐,老板说“先问客户姓名,再问电话,最后问地址。顺序绝对不能乱,一次只问一个问题”。
    • 考点:模型会不会急着一次性把三个问题都问完?或者把顺序搞反?
  3. 项目排序(Item Ranking)

    • 比喻:就像整理货架,老板说“把最贵的 10 个商品挑出来,按价格从高到低排好,一个都不能错”。
    • 考点:模型能不能像数据库一样精准地排序和筛选数据?
  4. 拒绝过度自信(Overconfidence)

    • 比喻:就像医生看病,如果资料不全,医生应该老实说“我看不了”,而不是瞎猜一个病名。
    • 考点:当问题太难或资料不足时,模型是敢于说“我不知道”,还是为了面子硬编一个答案?(在企业里,瞎编比不知道更可怕)。
  5. 必须包含的内容(Positive Content)

    • 比喻:写报告时,老板说“必须在结尾加上‘特此报告’四个字,并且必须提到‘预算’这个词”。
    • 考点:模型会不会漏掉这些强制要求的“硬性指标”?
  6. 禁止包含的内容(Negative Content)

    • 比喻:写代码时,老板说“绝对不能用某个特定的函数,也不能用注释”。
    • 考点:模型能不能管住自己,不输出那些被禁止的东西(比如安全漏洞或违规内容)?

3. 考试结果怎么样?(令人惊讶的真相)

作者找了 11 个目前最顶尖的“超级实习生”(包括 GPT-4.1, DeepSeek, Claude 等)来考试,结果让人大跌眼镜:

  • 没有满分选手:最好的模型总分也只有 74% 左右。这意味着,即使是目前最聪明的 AI,在严格的商业环境下,每 4 次任务里就有 1 次会“不听话”或“搞砸”。
  • 偏科严重
    • 有的模型特别擅长“写诗”(格式好),但一遇到“排序”或“拒绝回答”就傻眼。
    • 有的模型在“推理”模式下(比如 DeepSeek V3.1)表现更好,但在“直接指令”模式下就变差了。
    • 比喻:就像有个学生数学考了 100 分,但让他按顺序排队时,他能把队伍排成圆圈。
  • 格式是“硬伤”:即使是最好的模型,在面对稍微变通一点的格式要求(比如把 \boxed{} 改成 \boxed[])时,准确率也会断崖式下跌。这说明它们更多是在“死记硬背”训练时的格式,而不是真正理解了“按指令办事”的逻辑。

4. 这篇论文有什么用?

  • 对企业用户:就像给公司采购 AI 提供了一个“试金石”。如果你要买 AI 做客服或处理数据,别光看它聊天多厉害,先拿 FIREBENCH 测一下,看它在“排序”、“格式”和“不乱编”这几项上能不能过关。
  • 对开发者:就像给 AI 医生提供了“病历本”。通过 FIREBENCH,开发者能一眼看出自己的模型是“偏科”还是“全面崩盘”,从而针对性地改进。

总结

FIREBENCH 告诉我们:在聊天室里和 AI 聊天很轻松,但在企业里让 AI 干活(尤其是需要精准、守规矩、不出错的工作),现在的 AI 还只是个“半吊子”。

它就像一面镜子,照出了 AI 在**“听话”**这件事上,离真正的“完美员工”还有很长的路要走。作者把这套考题开源了(放在 fire-bench.com),欢迎大家一起来给 AI 们“找茬”和“补课”。