"I Don't Know" -- Towards Appropriate Trust with Certainty-Aware Retrieval… — 通俗解释

Each language version is independently generated for its own context, not a direct translation.

想象一下，你正在向一位非常自信、口齿伶俐的机器人寻求建议。有时，这个机器人能完美地给出答案。但有时，它其实并不知道答案，却因为它太擅长说话，便信口开河，并带着十足的确定性将其说出来。这很危险，因为你可能会过度信任它，从而得到糟糕的建议。

本文介绍了一种新方法，旨在教导这些人工智能机器人一种非常人类化的价值观：对自己所不知之事保持诚实。

以下是研究人员所做工作的简要分解：

大型语言模型（LLMs）就像从不打破角色的演员。即使它们是在猜测，听起来也像是百分之百确定。

研究人员构建了一个名为CERTA（Certainty Enhanced RAG for Trustworthy Answers，即“用于可信答案的置信度增强检索生成”）的系统。你可以将 CERTA 想象成坐在机器人和你之间的质量检验员。

CERTA 不会让机器人直接回答，而是迫使机器人在开口前进行“自我检查”。它使用一个三步检查清单（称为"RAG 三元组”）来判断它应该有多大的把握：

基于这份检查清单，机器人会计算出一个“置信度分数”。如果分数较低，机器人会被设定为说"我不知道"，或者添加免责声明，例如：“我不完全确定，因为我掌握的信息不完整。”

为了验证这是否有效，研究人员创建了一个包含 90 个问题的特殊测试库。这些问题并非简单的数学题，而是关于以下方面的棘手问题：

他们为机器人提供了三种类型的“笔记”（上下文）作为工作依据：

结果表明，CERTA 系统让机器人变得更加诚实：

减少“虚假”自信： 当笔记不完整或错误时，普通机器人往往会编造答案并表现得确信无疑。而 CERTA 机器人则更有可能说“我不知道”，或者解释信息不够充分。
减少“唯唯诺诺”的行为： 当被要求赞同用户的观点（即使是很糟糕的观点）时，CERTA 机器人不太可能为了讨好而只说“是的”。它更愿意提出异议或承认不确定性。
谨慎的道德判断： 在被问及道德问题时，CERTA 机器人更加谨慎。除非笔记明确支持某条道德准则，否则它不会轻易做出严厉的评判。

研究人员还构建了一个简单的仪表盘（可视化界面），你可以在此看到机器人的“置信度计”。

你可以看到一个数字（例如 1.0 中的 0.59），显示机器人有多确定。
你可以选择机器人在不确定时的行为模式：
1. 默认模式： 它仍会尝试回答。
2. 严格模式： 它只说“我不知道”。
3. 灵活模式： 如果笔记缺失，它可以利用自己的通用知识。

该论文认为，为了让我们信任人工智能，人工智能必须仁慈（善良且诚实）。通过教导人工智能反思自身的不确定性，并在适当时说“我不知道”，我们可以建立一种关系，让我们对它的信任恰到好处——既不过少，也不过多。该系统并非阻止人工智能变得聪明，而只是阻止它假装比实际更聪明。

"I Don't Know" -- Towards Appropriate Trust with Certainty-Aware Retrieval Augmented Generation