Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

该论文通过构建魁北克保险领域的权威基准 AEPC-QA,评估了 51 个大语言模型在闭卷与检索增强生成(RAG)模式下的表现,揭示了推理能力、RAG 带来的知识增强与上下文干扰效应,以及通用大模型优于领域微调小模型的“专业化悖论”等关键发现,指出尽管模型已接近专家水平,但 RAG 引入的不稳定性仍需严格校准方可实现自主部署。

David Beauchemin, Richard Khoury

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给魁北克省的保险行业做了一次“大型体检”,看看现在的**人工智能(AI)**到底能不能当一名合格的“保险顾问”。

想象一下,魁北克省通过了一项新法律(Bill 141),允许保险公司完全在网上卖保险,不再强制要求有人类代理在场。这就像把**“自助餐厅”开到了每个人家里,虽然方便,但有个大问题:保险条款通常像“天书”一样,长达 30,000 多字,充满了复杂的法律术语。普通老百姓就像“第一次进自助餐厅的食客”,面对满桌复杂的菜品(保险条款),不知道该怎么选,也不知道哪些坑不能踩。这就造成了一个巨大的“建议缺口”**。

为了解决这个问题,作者们请来了 51 位**"AI 选手”(各种大语言模型),进行了一场“保险知识大考”**。

1. 考试题目:一本“绝密”的题库

为了公平起见,作者们没有用网上随便找的题目,而是把魁北克官方保险代理人**“考前辅导书”**里的 807 道选择题搬到了电脑上。

  • 比喻:这就像是用**“只有内部员工才能看到的真题集”**来考 AI。因为这些书以前只存在于纸质版,没被放到网上,所以 AI 不可能在训练时“偷看”过答案,这保证了考试的公平性。

2. 两种考试模式:死记硬背 vs. 开卷考试

作者们测试了两种模式:

  • 闭卷模式(Closed-book):AI 只能靠脑子里的记忆答题。
  • 开卷模式(RAG,检索增强生成):AI 可以手边放一本“保险法典”,遇到不会的题就查书,再回答。

3. 考试发现的三个惊人真相

真相一:会“思考”的 AI 才是王者

  • 现象:那些被设计成**“先思考、再回答”**的 AI(比如 o3、o1 系列),成绩最好,接近 79% 的正确率。而那些只会“脱口而出”的普通 AI,成绩就差很多。
  • 比喻:这就好比**“老练的律师”“背书的法学生”**。老练的律师遇到案子,会先在脑子里推演好几步(逻辑推理),分析利弊,然后才给建议;而法学生可能只会死记硬背法条,遇到稍微变通一点的案子就懵了。
  • 结论:在保险这种需要严密逻辑的领域,“思考的能力”比“记忆的能力”更重要

真相二:开卷考试是“双刃剑”

  • 现象
    • 对于**“脑子不太灵光”的 AI,给它们一本“法典”(开卷),成绩瞬间从不及格(36%)飙升到优秀(71%)。这就像给一个普通学生配了个“超级学霸助手”**,它不会也能抄对答案。
    • 但对于**“原本就很聪明”**的 AI,给它们“法典”反而害了它们!比如某款原本能考 74 分的 AI,一开卷反而只考了 14 分,甚至不如瞎蒙。
  • 比喻:这就像**“过度依赖导航”。有些老司机(强模型)本来路感很好,突然导航里塞了一堆乱七八糟的复杂路况信息,反而把它“带偏了”,导致它连最简单的路都走错了。这种现象被称为“上下文干扰”**。
  • 结论:给 AI 查资料并不总是好事,如果资料太多太杂,反而会让聪明的 AI 变笨。

真相三:越“专”越不行,越“杂”越强

  • 现象:作者们原本以为,专门针对法语和保险微调过的 AI 会考得最好。结果恰恰相反!那些**“什么都会一点”的通用大模型**(比如 GPT-4o, Claude),成绩吊打那些**“专门学保险”的小模型**。
  • 比喻:这就像**“全科医生”“只背过药典的实习生”。全科医生虽然没专门背过某一种罕见病的药典,但他懂得“看病的大逻辑”**,能举一反三;而实习生虽然背熟了药典,但遇到稍微复杂的病情就不知道该怎么组合用药了。
  • 结论:在保险领域,**“通用的逻辑推理能力”“死记硬背特定术语”**更关键。

4. 最终建议:现在还不能完全放手

虽然现在的 AI 已经能考到接近 80 分,看起来很像专家了,但作者们认为现在还不能完全让它们独立上岗

  • 风险:就像刚才说的,有些聪明的 AI 一查资料就“短路”了。如果让这样的 AI 直接给老百姓做保险建议,万一它“短路”给错了建议,导致老百姓没买到保险或者赔了钱,保险公司是要**“吃官司”**的(就像之前加拿大航空的聊天机器人因为乱说话被罚款一样)。
  • 建议:在 AI 变得足够稳定、不会“查资料反而变笨”之前,最好还是**“人机协作”**。让 AI 当助手,人类专家当最终把关人。

总结

这篇论文告诉我们:

  1. AI 很聪明,但还没完全成熟,特别是在处理复杂的法律条款时。
  2. 会“思考”比“背得多”更重要
  3. 给 AI 查资料(开卷)不一定能提分,有时候反而会搞砸。
  4. 不要迷信“专门定制”的 AI,通用的、逻辑强的 AI 往往表现更好。

在保险这种**“不能出错”**的领域,我们还需要再等等,让 AI 变得更稳健,才能放心地把它们推向市场。