A Neuro-Symbolic Framework for Accountability in Public-Sector AI

想象一个负责决定谁有资格获得食品援助的政府机构。当他们向申请人发出“拒绝”通知时，会附上一封信函说明原因。通常，这些信函使用令人困惑的法律术语写成。申请人阅读后，可能会觉得“听起来合乎情理”，但实际上无法核实政府是否正确地遵循了规则。由于缺乏验证所需的法律工具，他们只能被迫信任这封信。

本文提出了一种新的“数字裁判”来核查这些信函。其工作原理可分解为以下简单概念：

将政府的决策过程想象成一个黑箱。你输入个人信息，系统输出一个决定。有时，这个黑箱是一个计算机程序；有时，是一个遵循复杂规则手册的人类。问题在于，寄给你的“解释信函”表面上可能看起来没问题，但背后可能正在暗中违反规则。

目前，我们依赖“可解释性”——试图让计算机的推理过程变得可见。但作者认为，在法律环境中，仅仅看到推理过程是不够的。你需要可审计性。你需要知道解释是否真正符合法律，就像核对收据是否与所购物品一致一样。

作者构建了一个名为神经符号框架的系统。你可以将其想象为一个由两人组成的协作团队：

翻译器（“神经”部分）：
想象一个超级聪明的机器人，它阅读杂乱复杂的政府法律（用英语书写）以及寄给申请人的杂乱解释信函。该机器人的任务是将这些人类语言翻译成计算机能完美理解的严格数学语言。这就像将一首诗翻译成精确的数学方程组。
- 在论文中： 他们使用大型语言模型（LLM）将诸如“你的收入必须低于 2000 美元”这样的法律条文转化为形式化规则：如果收入 > 2000，则不符合资格。
规则检查器（“符号”部分）：
一旦法律和解释信函被转化为数学方程，一个严格的逻辑机器（称为 SMT 求解器）便会介入。这台机器不进行猜测，而是进行计算。它会问：“这封解释信函是否在数学上证明了该决定的合理性？”
- 如果信函说“你因收入过高而被拒绝”，而数学计算显示你确实收入过高，机器会输出SAT（可满足/有效）。这意味着解释站得住脚。
- 如果信函说“你因收入过高而被拒绝”，但数学计算显示你并未收入过高，机器会输出UNSAT（不可满足/无效）。这意味着解释是谎言或错误，即使对人类来说听起来似乎合理。

该团队在加利福尼亚州的食品援助项目CalFresh上测试了此系统。他们选取了 50 个真实案例，其中人们的福利被拒绝或削减。

设置： 他们将实际法律、申请人的事实（收入、家庭规模）以及政府寄出的官方信函输入系统。
结果： 系统成功发现了“法律不匹配”。在一次测试中，他们通过欺骗系统，将“拒绝”决定改为“批准”，但保留了相同的解释（其中称该人收入过高）。系统立即发出UNSAT警报，指出解释与新决定相矛盾。
“铁证”： 当系统发现错误时，它不仅仅说“错误”。它会指出违反法律的具体页码和段落。这就像裁判不仅吹哨，还直接指出球员违反规则的具体规则书页。

作者认为，我们需要停止仅仅尝试“解释”AI 如何思考，转而开始审计其产生的法律理由。

本文并不声称要取代政府或做出最终决定。相反，它构建了一个数字安全网。它确保当政府向你发送一封说“不”的信函时，该信函确实是一个合法的法律理由，而不仅仅是一个令人困惑的借口。它将“解释”从一份你必须信任的纸张，转变为你可以验证的证据。

关键要点： 在公共福利领域，解释不仅仅关乎清晰；它关乎法律上的真实性。该系统就是用来核查真相是否真正被陈述出来的工具。

技术摘要：面向公共部门人工智能问责的神经符号框架