ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ESGenius 的新工具，你可以把它想象成是给大型人工智能（AI）模型举办的一场"可持续发展知识奥林匹克"。

现在的 AI 很聪明，能写诗、能编程，但在处理“环境、社会和治理”（简称 ESG）这种专业领域的问题时，它们往往表现得像个“半吊子”。ESGenius 就是为了解决这个问题而诞生的。

下面我用几个生活中的比喻来为你拆解这篇论文的核心内容：

1. 为什么要办这场考试？（背景与痛点）

想象一下，你是一家大公司的 CEO，你想让 AI 帮你写一份关于“公司如何环保”的报告，或者回答“我们是否违反了某项国际环保标准”。

现状：目前的 AI 就像是一个读过很多书但没考过试的“博学家”。它可能知道“碳排放”这个词，但如果问它具体的计算规则或复杂的法律条款，它可能会胡编乱造（幻觉），或者给出模棱两可的答案。
风险：在 ESG 领域，答错可不是闹着玩的。错误的建议可能导致公司被罚款、被起诉，或者被指责“漂绿”（假装环保）。
问题：以前没有一套标准的“试卷”来测试 AI 到底懂不懂这些专业知识。ESGenius 就是填补这个空白的第一套专业题库。

2. 这套“试卷”是怎么来的？（数据构建）

ESGenius 不是随便在网上抓点数据生成的，它的出题过程非常严谨，就像请了顶级教授出题，再由资深专家阅卷。

教材库 (ESGenius-Corpus)：
研究人员收集了 231 份 全球最权威的“教材”，包括 IPCC（联合国气候变化专门委员会）的厚厚报告、GRI（全球报告倡议组织）的标准、SASB 的行业准则等。这就像把全世界最权威的环保和道德教科书都搬到了图书馆里。
出题过程：
1. AI 初稿：先用一个强大的 AI 从这些书里“读”出知识点，生成一些选择题。
2. 专家严审：这是最关键的一步。6 位拥有 5 年以上经验的 ESG 领域专家，像高考阅卷组一样，逐题审核。
  - 题目是否太难或太简单？
  - 干扰项（错误选项）是否足够迷惑人？
  - 答案是否绝对准确？
3. 最终成卷：经过筛选，最终留下了 1136 道 高质量的选择题。每道题都严格对应教材里的具体页码，确保有据可查。

3. 考试怎么考？（两种模式）

为了全面评估 AI 的能力，ESGenius 设计了两种考试模式：

模式一：闭卷考试 (Zero-Shot)
- 场景：AI 只能靠脑子里的记忆来答题，不能查书。
- 目的：测试 AI 在训练时到底“吃”进去了多少 ESG 知识。
- 结果：惨不忍睹。即使是目前最顶尖的 AI（如 o3），正确率也只有 72% 左右，很多模型只有 55%-60%。这说明 AI 在 ESG 这个专业领域，知识储备还很浅，经常“一本正经地胡说八道”。
模式二：开卷考试 (RAG - 检索增强生成)
- 场景：AI 在答题前，允许它去查阅刚才提到的那 231 份“教材”中的相关片段。
- 目的：测试 AI 能否利用权威资料，快速找到正确答案并给出有理有据的回答。
- 结果：大反转！一旦允许“查书”，AI 的表现突飞猛进。
  - 有些小模型（比如只有 140 亿参数的）在查书后，正确率从 63% 飙升到 80% 以上。
  - 这证明了：在专业领域，给 AI 一本权威的“小抄”（检索到的资料），比让它死记硬背（模型参数量大）更重要。

4. 核心发现与启示（结论）

这篇论文通过这场“考试”得出了几个有趣的结论：

AI 不是全知全能的：在 ESG 这种需要高度专业知识和严谨逻辑的领域，目前的 AI 还像个刚毕业的大学生，需要不断学习和查阅资料，不能直接当专家用。
“小模型 + 好资料” > “大模型 + 瞎猜”：一个参数较小的模型，如果配合了精准的检索系统（RAG），往往比一个参数巨大但只能靠记忆的模型表现更好。这就像一个聪明的实习生拿着详细的操作手册，往往比一个凭经验办事的“老江湖”更准确。
推理能力很重要：那些专门经过“逻辑推理训练”的 AI 模型，在闭卷考试中表现更好。这说明理解复杂的因果关系（比如“为什么这样做会导致碳排放增加”）比单纯记忆定义更难，也更重要。

5. 这对我们意味着什么？

ESGenius 不仅是一个测试工具，更是一个开源的“标尺”。

对开发者：它告诉我们要想让 AI 真正帮人类解决环保和社会问题，不能只堆砌算力，更要把 AI 和权威知识库连接起来。
对大众：它提醒我们，当 AI 谈论环保、社会责任等严肃话题时，必须要求它“引用出处”。如果没有权威资料支撑，AI 的回答可能只是“美丽的谎言”。

一句话总结：
ESGenius 给 AI 发了一本“专业教材”和一套“严谨试卷”，发现 AI 目前还只是个“半吊子”专家，但只要给它配上“查书”的功能，它就能瞬间变身靠谱的“行业顾问”。这是让 AI 在可持续发展领域变得可信、可靠的重要一步。

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

1. 为什么要办这场考试？（背景与痛点）

2. 这套“试卷”是怎么来的？（数据构建）

3. 考试怎么考？（两种模式）

4. 核心发现与启示（结论）

5. 这对我们意味着什么？

ESGenius 论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据构建 (Data Construction)

2.2 评估协议 (Evaluation Protocol)

2.3 实验设置

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

1. 为什么要办这场考试？（背景与痛点）

2. 这套“试卷”是怎么来的？（数据构建）

3. 考试怎么考？（两种模式）

4. 核心发现与启示（结论）

5. 这对我们意味着什么？

ESGenius 论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据构建 (Data Construction)

2.2 评估协议 (Evaluation Protocol)

2.3 实验设置

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics