ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

本文提出了 ESG-Bench 基准数据集,通过引入人类标注的问答对和思维链(CoT)策略,有效提升了大语言模型在长篇幅 ESG 报告分析中的事实准确性并显著抑制了幻觉问题。

Siqi Sun, Ben Peng Wu, Mali Jin, Peizhen Bai, Hanpei Zhang, Xingyi Song

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)开一场“** ESG 报告阅读理解特训营**”,目的是治好它们“爱瞎编”(也就是学术上说的“幻觉”)的毛病。

为了让你更容易理解,我们可以把整件事想象成这样一个故事:

1. 背景:为什么我们需要这个“特训营”?

想象一下,现在的公司都要写一本厚厚的“年度体检报告”(这就是 ESG 报告,包含环境、社会和治理内容)。以前这些报告是自愿写的,现在法律要求必须写,而且写得越来越长、越来越复杂,有的甚至像一本百科全书。

投资者和监管机构需要看这些报告,来判断公司是不是真的在“做好事”,还是只是在“洗绿”(假装环保)。

这时候,大家想到了请“超级 AI 助手”(大语言模型)来帮忙读这些报告并回答问题。但是,AI 有个大毛病:它太自信了,而且容易“记错”或“瞎编”

  • 瞎编(幻觉):报告里明明没写,AI 却信誓旦旦地说“写了”,甚至编造数据。
  • 漏答:报告里明明有答案,AI 却假装没看见,直接说“不知道”。

这就好比让一个学生去考试,他要么胡编乱造,要么明明会做却不敢写,这在涉及金钱和法律的 ESG 领域是非常危险的。

2. 核心工具:ESG-Bench(“作弊题”与“标准答案”)

为了解决这个问题,作者们(来自英国谢菲尔德大学)造了一个专门的“训练场”,叫 ESG-Bench

  • 它是什么?这是一套由真人专家精心编写的“题库”。
  • 怎么来的?他们找来了真实的 ESG 报告,让 AI 先试着回答问题,然后请人类专家(就像阅卷老师)来批改。
  • 老师的批注:老师不仅给答案打分,还会给每个答案贴上标签:
    • 完全正确:答案在报告里能找到。
    • 瞎编(幻觉):答案在报告里找不到,是 AI 自己编的。
    • 🤷 漏答:报告里有,但 AI 没回答。

这就好比给 AI 准备了一套“错题本”,里面详细记录了它哪里编了谎,哪里没看清。

3. 特训方法:思维链(CoT)—— 教 AI“走一步看三步”

作者发现,直接让 AI 背答案(普通训练)效果一般。于是,他们发明了一种“思维链”(Chain-of-Thought, CoT)特训法。

这就好比教一个学生做数学题:

  • 普通训练:直接告诉学生“答案是 5"。学生下次遇到类似的题,可能还是靠猜。
  • 思维链训练:强迫学生把解题过程写出来:
    1. 第一步:先看看题目问什么?(定位关键词)
    2. 第二步:去报告里找相关的段落。(检索证据)
    3. 第三步:仔细读读这些段落,里面真的有答案吗?(验证证据)
    4. 第四步:如果有,就回答;如果没有,就老实说“没找到”。

作者设计了两步走四步走的“思维剧本”,让 AI 在回答前必须先“过脑子”,确认证据确凿再开口。

4. 训练成果:AI 变“老实”了

经过这种特训,实验结果显示:

  • 瞎编变少了:AI 不再敢信口开河,如果报告里没写,它就老实承认“没找到”,而不是编造一个。
  • 更精准了:在有答案的时候,它能更准确地从长篇大论中把答案找出来。
  • 举一反三:这种“先找证据再回答”的习惯,不仅让 AI 在 ESG 报告上表现更好,连在其他领域的问答任务上也变得更靠谱了。

5. 总结:这就像给 AI 装上了“事实核查员”

简单来说,这篇论文做了一件很实在的事:

  1. 造了个“考场”(ESG-Bench),专门用来测试 AI 在长文档里会不会撒谎。
  2. 教了个“新规矩”(思维链),强迫 AI 在说话前先翻书、找证据、确认无误。
  3. 证明了“这招管用”:让 AI 从“自信满满的瞎编者”变成了“严谨谨慎的查阅者”。

这对于未来让 AI 处理法律、医疗、金融等不能出错的严肃文件,具有非常重要的意义。它告诉我们:想要 AI 不胡说八道,就得教它学会“三思而后言”

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →