Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种**“智能审计抽样”的新方法，旨在帮助会计师（审计师）在检查公司账目时，既能少干活**（节省时间和成本），又能保证不出错（控制风险）。

为了让你轻松理解，我们可以把审计过程想象成**“在一大桶混合了红豆（坏账/错误）和绿豆（好账）的豆子中，快速判断这桶豆子是否合格”**的游戏。

以下是这篇论文的核心内容，用大白话和比喻来解释：

1. 现在的痛点：要么全查，要么瞎猜

传统做法：
- 全查：把桶里几百万颗豆子都倒出来数一遍。太慢了，成本太高，根本做不到。
- 随机查：抓一把豆子看看。如果抓出来的全是绿豆，就放心了；如果抓出来几颗红豆，审计师就慌了：“是不是桶里全是红豆？还是只是运气不好抓到了几颗？”
- 现在的困境：如果第一把抓出来的结果模棱两可（比如既有红又有绿，比例刚好卡在及格线附近），审计师通常会被要求“再抓一把”。但这往往是拍脑袋决定的：再抓多少？抓到什么时候停？怎么保证停下来时结论是对的？目前的规则比较模糊，缺乏数学上的严格保障。

2. 论文的新方案：像“走钢丝”一样的动态检查

这篇论文设计了一套**“动态走钢丝”的规则。审计师不需要预先决定查多少，而是像玩一个“即时反应游戏”**：

设定两条警戒线：
- 红线（太危险）：如果抓到的红豆比例太高，直接判定“不合格”，停止检查，立刻报告风险。
- 绿线（很安全）：如果抓到的红豆比例极低，直接判定“合格”，停止检查，放心签字。
- 中间地带（走钢丝）：如果比例在红绿线之间，说明证据不足，继续抓下一颗豆子。
核心创新：
以前的方法是“死板”的，这篇论文用数学方法（蒙特卡洛模拟）算出了最完美的警戒线。
- 这条线不是画在纸上的，而是动态变化的。随着你检查的豆子越来越多，警戒线会慢慢移动，确保无论豆子桶里实际有多少红豆，你犯错的概率都被死死控制在极低的范围内（比如 5% 以内）。

3. 这个方法的三个“超能力”

A. 见好就收，见坏也收（节省时间）

比喻：如果你抓了 10 颗豆子，全是绿豆，且已经超过了“绿线”，系统会立刻喊停：“不用查了，这桶豆子肯定是好的！”
效果：对于质量很好的公司，审计师可能只需要检查 5% 的账目就能得出结论，省下了 95% 的时间。

B. 遇到模糊地带，绝不草率（保证安全）

比喻：如果你抓了 10 颗豆子，红绿各半，刚好卡在警戒线中间，系统会冷静地说：“别停，继续抓。”它会一直让你抓，直到证据足够清晰为止。
效果：避免了因为样本太少而误判（把坏公司当做好公司，或者把好公司冤枉了）。

C. 数学上的“保险单”（统计保证）

比喻：以前的方法像是“凭经验赌一把”，这篇论文的方法像是**“买了保险”**。
效果：作者在数学上证明了，只要按照这个规则走，无论那桶豆子（公司账目）里实际有多少红豆，你做出错误决定的概率绝对不会超过你设定的上限（比如 5%）。这是给审计师和监管机构的一颗定心丸。

4. 它是如何工作的？（简单三步走）

设定目标：审计师先定好“及格线”（比如：红豆比例不能超过 10%）。
模拟演练（计算机算）：在真正去查账之前，计算机先在虚拟世界里模拟几万次“抓豆子”的过程，找出那条最完美的警戒线。这条线能保证：即使是最坏的情况（比如红豆刚好卡在 10% 边缘），我们也不会轻易犯错。
实地执行：审计师开始查账。每查一笔，就看看当前的“红豆比例”是否越过了警戒线。
- 越过了？停！下结论。
- 没越过？继续查下一笔。

5. 实际效果如何？

论文用真实的数据（比如印度的审计数据和美国的欺诈检测数据）做了测试：

情况好时：如果公司账目很干净，审计师平均只需要检查**4%~7%**的账目就能放心签字（以前可能需要查更多，或者不敢停）。
情况差时：如果公司账目问题很大，审计师也能很快发现并叫停。
情况模糊时：如果公司账目就在及格线边缘，系统会诚实地要求审计师检查更多（比如 13% 甚至更多），直到把真相查清楚。

总结

这篇论文就像给审计师发了一把**“智能尺子”。
以前审计师查账像是在黑暗中摸索**，查多少、什么时候停，心里没底。
现在，有了这把尺子，审计师可以边走边看：

路好走（账目好），就快走（少查点）；
路难走（账目差），就慢走（多查点）；
而且无论怎么走，保证不会掉进坑里（统计误差可控）。

这不仅让审计工作更高效、更省钱，也让财务报表的可靠性更有保障，对投资者和公众来说都是一件大好事。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：具有统计保证的序贯审计抽样

论文标题：Sequential Audit Sampling with Statistical Guarantees（具有统计保证的序贯审计抽样）
作者：Masahiro Kato, Kei Nakagawa
日期：2026 年 4 月 8 日

1. 研究背景与问题定义 (Problem)

1.1 现实背景

财务报表审计通常采用基于风险的证据方法。在实际操作中，当初始样本不足以得出结论时，审计师往往会进行额外的抽样或相关程序。虽然国际审计准则（如 ISA 530）和各国准则承认这种“扩展”做法，但现有的审计抽样标准通常更多是机构性描述，缺乏严格的统计序贯设计。现有的行为审计研究虽然承认审计过程的序贯性，但未能提供有限总体下的停止边界或事前（ex ante）错误概率保证。

1.2 核心问题

本研究旨在解决以下问题：

如何将带有额外序贯收集项目的审计抽样，形式化为一个有限总体下的序贯假设检验问题（在不放回抽样条件下）。
如何设计停止规则和决策规则，以在事前（ex ante）严格控制决策错误的概率（即第一类错误和第二类错误）。
如何在保证统计严谨性的同时，计算预期的停止时间（即预期的样本量），以实现审计效率。

1.3 问题设定

总体：包含 $n$ 个审计项目的有限总体。
偏差：每个项目 $i$ 有一个指示变量 $X_i \in \{0, 1\}$ ，表示是否存在偏差（如控制失效、欺诈或错误）。
总体偏差率： $p_0 = m/n$ ，其中 $m$ 是偏差总数。
可容忍偏差率： $r$ 。如果 $p_0 > r$ ，则总体被视为有问题。
假设检验：
- $H: p_0 \le r$ （总体可接受）
- $K: p_0 > r$ （总体不可接受）
- 引入无差异区域（Indifference Region）： $H: p_0 \le r - \theta_H$ 与 $K: p_0 > r + \theta_K$ 。

2. 方法论 (Methodology)

2.1 序贯抽样框架

审计师从有限总体中不放回地逐个检查项目。令 $X_1, X_2, \dots$ 为按随机顺序观察到的偏差指示变量，样本均值为 $\hat{p}_t = \frac{1}{t}\sum_{s=1}^t X_s$ 。
该过程由停止规则（Stopping Rule）和决策规则（Decision Rule）组成：

停止规则：当样本均值 $\hat{p}_t$ 离开“继续区域”（即低于下界或高于上界）时停止，或者在检查完所有 $n$ 个项目后强制停止。
决策规则：
- 若 $\hat{p}_{\tau} < \kappa_r(\tau)$ ，接受 $H$ 。
- 若 $\hat{p}_{\tau} > \kappa_r(\tau)$ ，接受 $K$ 。
- 若检查完所有项目，则根据真实偏差率 $p_0$ 做出无误差决策。

2.2 误差控制与边界校准

核心目标是控制两类错误概率：

当 $H$ 为真时错误接受 $K$ 的概率 $\le \alpha$ 。
当 $K$ 为真时错误接受 $H$ 的概率 $\le \beta$ 。

由于总体是有限且不放回抽样的，样本偏差数服从超几何分布（Hypergeometric Distribution）。

最不利设计点（Least-Favorable Design Points）：
- 校准上界时使用 $p^*_H = r - \theta_H$ （最可能导致错误接受 $K$ 的点）。
- 校准下界时使用 $p^*_K = r + \theta_K$ （最可能导致错误接受 $H$ 的点）。
递归边界构建：
为了在满足累积误差约束的前提下使样本量最小化，边界 $\kappa_r(t)$ $κ_{r} (t)$ （下界）和 $\bar{\kappa}_r(t)$ $\overset{κ}{ˉ}_{r} (t)$ （上界）是递归确定的。
- 上界选择：在满足累积错误概率 $\le \alpha$ 的前提下，选择最小的可行阈值（以便尽早拒绝 $H$ ）。
- 下界选择：在满足累积错误概率 $\le \beta$ 的前提下，选择最大的可行阈值（以便尽早接受 $H$ ）。

2.3 蒙特卡洛模拟校准

由于直接计算超几何分布的精确边界跨越概率在计算上可能非常繁重，作者提出使用蒙特卡洛模拟作为校准工具：

生成 $M$ 条来自最不利总体（ $p^*_H$ 和 $p^*_K$ ）的随机抽样路径。
利用模拟数据估计在特定时间 $t$ 和特定边界下的精确时间错误概率（Exact-time error probabilities）。
根据估计概率递归调整边界，直到满足预设的 $\alpha$ 和 $\beta$ 水平。
该方法在模拟次数 $M$ 足够大时，能极好地逼近理论上的精确设计。

2.4 扩展性

该方法可灵活扩展至：

单侧检验：仅关注偏差率是否过低（如测试控制有效性）。
带最小样本量的单侧检验：强制在达到一定样本量前不得做出有利结论。
两阶段测试：先检查初始批次，若结果不确定再扩展。
截断序贯测试：在固定时间 $T < n$ 强制停止。

3. 主要贡献 (Key Contributions)

形式化框架：首次将带有额外抽样的审计实践严格形式化为有限总体下的不放回序贯假设检验问题。
统计保证：提供了**事前（ex ante）**的决策错误概率控制保证，这是传统审计抽样扩展实践中往往缺乏的。
实用算法：提出了一种基于蒙特卡洛模拟的边界校准算法，使得该理论框架在实际审计规模（有限总体）下具有可操作性。
效率优化：通过序贯停止规则，显著减少了在偏差率明显偏离可容忍水平时的预期样本量，同时保留了在边界附近进行充分调查的能力。

4. 实验结果 (Results)

4.1 数值模拟（合成数据）

设置：总体 $n=100$ ，可容忍率 $r=0.2$ ，误差水平 $\alpha=\beta=0.05$ 。
发现：
- 在 $p_0$ 远离决策边界时（如 $p_0=0.15$ 或 $0.25$），错误概率被控制在预设水平（约 5%）以内。
- 预期停止时间：在决策边界附近（无差异区域）停止时间最长；当偏差率明显低于或高于可容忍水平时，停止时间显著缩短。

4.2 实证研究（真实数据集）

使用了三个公开数据集进行回测（Replay）：

Audit Risk (UCI)：高偏差率 ( $p_0 \approx 0.39$ $p_{0} \approx 0.39$ )。
- 结果：97.8% 的随机排序在平均仅检查 34.2 个项目（约 4.4% 总体）后停止并判定为不可接受。
FraudDetection 2014：极低偏差率 ( $p_0 \approx 0.0007$ $p_{0} \approx 0.0007$ )。
- 结果：100% 判定为可接受，平均检查 428.7 个项目（约 7.6% 总体）。
FraudDetection 2000：接近边界 ( $p_0 \approx 0.0127$ $p_{0} \approx 0.0127$ ，略高于 $r+\theta_K$ $r + θ_{K}$ )。
- 结果：95.4% 判定为不可接受，但停止时间显著增加，平均检查 912.6 个项目（约 13.5% 总体），分布呈现右偏。

关键观察：

停止时间主要取决于偏差率与决策边界的距离，而非总体大小。
在边界附近，停止时间变长且方差增大，符合序贯检验的理论直觉。
实际观察到的错误决策频率与理论设计目标一致。

5. 意义与结论 (Significance & Conclusion)

5.1 理论与实践意义

填补空白：解决了审计标准中“扩展抽样”缺乏统计设计的问题，为审计师提供了明确的停止边界和错误控制依据。
提升效率：证明了序贯方法可以在不牺牲统计严谨性的前提下，大幅减少审计工作量（特别是在偏差明显时）。
通用性：该框架不仅适用于属性抽样（如控制测试），其核心思想也可扩展至其他审计场景。

5.2 结论

本研究成功构建了一个具有统计保证的序贯审计抽样框架。通过利用超几何分布特性和蒙特卡洛模拟校准，该方法能够在有限总体不放回抽样的条件下，精确控制决策错误概率，并动态优化样本量。这为现代风险导向审计提供了一种更科学、更高效且可量化的工具，有助于将审计实践从“基于经验的扩展”转变为“基于统计设计的序贯过程”。

Sequential Audit Sampling with Statistical Guarantees