ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本文提出了首个全面评估大语言模型在环境、社会和治理(ESG)及可持续发展领域知识掌握程度的基准ESGenius,该基准包含经专家验证的问答数据集与权威语料库,并通过零样本和检索增强生成(RAG)两种评估模式揭示了当前模型在该专业领域的知识缺口,同时证明了RAG技术在显著提升模型表现方面的关键作用。

Chaoyue He, Xin Zhou, Yi Wu, Xinjia Yu, Yan Zhang, Lei Zhang, Di Wang, Shengfei Lyu, Hong Xu, Xiaoqiao Wang, Wei Liu, Chunyan Miao

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ESGenius 的新工具,你可以把它想象成是给大型人工智能(AI)模型举办的一场"可持续发展知识奥林匹克"。

现在的 AI 很聪明,能写诗、能编程,但在处理“环境、社会和治理”(简称 ESG)这种专业领域的问题时,它们往往表现得像个“半吊子”。ESGenius 就是为了解决这个问题而诞生的。

下面我用几个生活中的比喻来为你拆解这篇论文的核心内容:

1. 为什么要办这场考试?(背景与痛点)

想象一下,你是一家大公司的 CEO,你想让 AI 帮你写一份关于“公司如何环保”的报告,或者回答“我们是否违反了某项国际环保标准”。

  • 现状:目前的 AI 就像是一个读过很多书但没考过试的“博学家”。它可能知道“碳排放”这个词,但如果问它具体的计算规则或复杂的法律条款,它可能会胡编乱造(幻觉),或者给出模棱两可的答案。
  • 风险:在 ESG 领域,答错可不是闹着玩的。错误的建议可能导致公司被罚款、被起诉,或者被指责“漂绿”(假装环保)。
  • 问题:以前没有一套标准的“试卷”来测试 AI 到底懂不懂这些专业知识。ESGenius 就是填补这个空白的第一套专业题库

2. 这套“试卷”是怎么来的?(数据构建)

ESGenius 不是随便在网上抓点数据生成的,它的出题过程非常严谨,就像请了顶级教授出题,再由资深专家阅卷

  • 教材库 (ESGenius-Corpus)
    研究人员收集了 231 份 全球最权威的“教材”,包括 IPCC(联合国气候变化专门委员会)的厚厚报告、GRI(全球报告倡议组织)的标准、SASB 的行业准则等。这就像把全世界最权威的环保和道德教科书都搬到了图书馆里。
  • 出题过程
    1. AI 初稿:先用一个强大的 AI 从这些书里“读”出知识点,生成一些选择题。
    2. 专家严审:这是最关键的一步。6 位拥有 5 年以上经验的 ESG 领域专家,像高考阅卷组一样,逐题审核。
      • 题目是否太难或太简单?
      • 干扰项(错误选项)是否足够迷惑人?
      • 答案是否绝对准确?
    3. 最终成卷:经过筛选,最终留下了 1136 道 高质量的选择题。每道题都严格对应教材里的具体页码,确保有据可查。

3. 考试怎么考?(两种模式)

为了全面评估 AI 的能力,ESGenius 设计了两种考试模式:

  • 模式一:闭卷考试 (Zero-Shot)

    • 场景:AI 只能靠脑子里的记忆来答题,不能查书。
    • 目的:测试 AI 在训练时到底“吃”进去了多少 ESG 知识。
    • 结果:惨不忍睹。即使是目前最顶尖的 AI(如 o3),正确率也只有 72% 左右,很多模型只有 55%-60%。这说明 AI 在 ESG 这个专业领域,知识储备还很浅,经常“一本正经地胡说八道”。
  • 模式二:开卷考试 (RAG - 检索增强生成)

    • 场景:AI 在答题前,允许它去查阅刚才提到的那 231 份“教材”中的相关片段。
    • 目的:测试 AI 能否利用权威资料,快速找到正确答案并给出有理有据的回答。
    • 结果:大反转!一旦允许“查书”,AI 的表现突飞猛进。
      • 有些小模型(比如只有 140 亿参数的)在查书后,正确率从 63% 飙升到 80% 以上。
      • 这证明了:在专业领域,给 AI 一本权威的“小抄”(检索到的资料),比让它死记硬背(模型参数量大)更重要。

4. 核心发现与启示(结论)

这篇论文通过这场“考试”得出了几个有趣的结论:

  1. AI 不是全知全能的:在 ESG 这种需要高度专业知识和严谨逻辑的领域,目前的 AI 还像个刚毕业的大学生,需要不断学习和查阅资料,不能直接当专家用。
  2. “小模型 + 好资料” > “大模型 + 瞎猜”:一个参数较小的模型,如果配合了精准的检索系统(RAG),往往比一个参数巨大但只能靠记忆的模型表现更好。这就像一个聪明的实习生拿着详细的操作手册,往往比一个凭经验办事的“老江湖”更准确
  3. 推理能力很重要:那些专门经过“逻辑推理训练”的 AI 模型,在闭卷考试中表现更好。这说明理解复杂的因果关系(比如“为什么这样做会导致碳排放增加”)比单纯记忆定义更难,也更重要。

5. 这对我们意味着什么?

ESGenius 不仅是一个测试工具,更是一个开源的“标尺”

  • 对开发者:它告诉我们要想让 AI 真正帮人类解决环保和社会问题,不能只堆砌算力,更要把 AI 和权威知识库连接起来
  • 对大众:它提醒我们,当 AI 谈论环保、社会责任等严肃话题时,必须要求它“引用出处”。如果没有权威资料支撑,AI 的回答可能只是“美丽的谎言”。

一句话总结
ESGenius 给 AI 发了一本“专业教材”和一套“严谨试卷”,发现 AI 目前还只是个“半吊子”专家,但只要给它配上“查书”的功能,它就能瞬间变身靠谱的“行业顾问”。这是让 AI 在可持续发展领域变得可信、可靠的重要一步。