On the last time and the number of times an estimator is more than epsilon from its target value

Each language version is independently generated for its own context, not a direct translation.

这篇论文听起来充满了高深的数学符号和统计学术语，但如果我们把它剥去外壳，它的核心故事其实非常生动有趣。

想象一下，你正在玩一个**“猜数字”**的游戏。

1. 核心故事：猜谜者与“最后一次失误”

背景设定：
有一个神秘的真实数字（我们叫它 $\theta_0$ ），比如“某只猫的真实体重”。你有一个猜谜工具（统计学家称之为“估计量” $\hat{\theta}_n$ ），它会根据你收集到的数据（比如称了 $n$ 次猫）不断给出一个猜测值。

随着你称的次数 $n$ 越来越多，你的猜测会越来越接近真实值。这就是所谓的“强一致性”——只要你耐心够久，你最终一定能猜对。

论文要问的问题：
既然最终能猜对，那**“最后一次猜错”**是什么时候发生的？

假设我们允许猜错一点点（比如误差 $\epsilon$ ，允许差 0.1 公斤）。
在你漫长的猜谜过程中，最后一次你的猜测偏离真实值超过 0.1 公斤，是发生在第几次称量？我们把这个次数记为 $N_\epsilon$ 。
另外，在整个过程中，你总共猜错了多少次（偏离超过 0.1 公斤）？记为 $Q_\epsilon$ 。

这篇论文就是来研究这两个数字（ $N_\epsilon$ 和 $Q_\epsilon$ ）的**“命运”**。当你的允许误差 $\epsilon$ 变得非常非常小（比如从 0.1 公斤变成 0.0001 公斤）时，这两个数字会呈现什么样的规律？

2. 核心发现：布朗运动与“最大偏差”

作者发现，虽然 $N_\epsilon$ 和 $Q_\epsilon$ 看起来是随机的，但当误差 $\epsilon$ 趋近于 0 时，它们遵循着一种神奇的概率分布。

生动的比喻：布朗运动（醉汉走路）
想象一个醉汉在直线上随机走路（这在数学上叫“布朗运动”或“维纳过程”）。

如果你把时间拉长，这个醉汉离起点的距离除以时间，会形成一个特定的波形。
论文发现， $N_\epsilon$ 的大小，本质上取决于这个醉汉在某个时间段内**“最远能跑多远”**。

结论：

最后一次失误的时间 ( $N_\epsilon$ )： 它和 $\frac{1}{\epsilon^2}$ 成正比。也就是说，如果你把允许的误差缩小一半，你最后一次犯错的次数大概会变成原来的 4 倍。
分布形状： 这个“最后一次犯错时间”的分布，取决于那个“醉汉”在单位时间内能跑出的最大距离的平方。

3. 谁是最好的猜谜者？（最优性）

既然知道了规律，我们就可以比较不同的猜谜工具（估计量）谁更厉害。

最大似然估计 (MLE)： 这是统计学里的“王牌选手”。论文证明了一个惊人的事实：在大多数情况下，最大似然估计是“最不容易犯大错”的。
比喻： 想象两个赛跑者，A 和 B。他们最终都会跑到终点（真实值）。但 A（最大似然估计）在跑到终点前的最后一段路上，极少会偏离跑道太远；而 B 可能会在离终点很远的地方还偶尔跑偏一下。
结论： 无论你怎么定义“偏离”（是用欧几里得距离，还是用更复杂的距离），最大似然估计在“最后一次犯错”和“总犯错次数”这两个指标上，都是统计意义上的最优解。其他任何方法，在极限情况下，都不可能比它表现得更好。

4. 特殊场景：不仅仅是猜数字

论文还把这个理论应用到了更复杂的领域：

非参数密度估计（画曲线）：
- 场景： 不是猜一个数字，而是根据一堆数据画出一条平滑的曲线（比如人口身高的分布图）。
- 发现： 这里的情况更复杂。误差 $\epsilon$ 和次数的关系不再是简单的平方反比，而是变成了 $\epsilon^{2.5}$ （即 $\epsilon^{5/2}$ ）。
- 有趣的发现： 在画曲线时，如果你把“平滑参数”（决定曲线有多平滑的旋钮）调得比传统建议稍微大一点点（约 1.008 倍），你犯错的总次数反而最少！这就像是为了不摔跤，稍微多走一点点弯路反而更安全。
经验分布函数（画阶梯图）：
- 场景： 用阶梯状的图来逼近真实的分布。
- 发现： 这里涉及到一个更复杂的“二维布朗运动”（Kiefer 过程）。论文证明了这种阶梯图在逼近真实曲线时，其“最后一次大幅偏离”的规律，就像是一个在正方形区域内乱跑的醉汉，其最大偏离距离的平方决定了犯错的时间。

5. 实际应用：什么时候该停止？

这篇论文不仅仅是理论游戏，它还有很实用的建议：

比较工具： 如果你想比较两个统计方法谁更好，不要只看它们平均误差是多少，看看谁“最后一次犯错”发生得更早，或者谁“总犯错次数”更少。这能更敏锐地捕捉到方法的优劣。
设计实验： 如果你在做实验，想建立一个“置信区间”（即你有多大的把握说真实值在这个范围内），这篇论文告诉你，你可以设计一种**“自适应”的实验。你可以一边收集数据，一边检查是否满足条件。一旦满足“最后一次犯错”的概率条件，你就可以安全地停止**，并且保证你的结论是可靠的。
测试的权力： 它还能帮助设计一种“只要数据足够多，就能 100% 发现错误”的测试方法。

总结

这篇论文就像是在研究**“一个优秀的侦探在破案过程中，最后一次被误导是在什么时候，以及总共被误导了多少次”**。

它告诉我们，随着线索（数据）越来越多，侦探（估计量）最终会锁定真凶（真实值）。
它量化了侦探在锁定真凶前，最后一次被假线索带偏的“时间”和总共被带偏的“次数”的规律。
最重要的是，它证明了最大似然估计这位“王牌侦探”，在避免被假线索带偏方面，是无可匹敌的。

这就好比在迷雾中找路，这篇论文不仅告诉你迷雾散去需要多久，还告诉你哪条路（哪种统计方法）能让你最晚才走错路，并且最少次地走错路。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结

1. 研究问题 (Problem)

在统计学中，强一致性（Strong Consistency）意味着估计量 $\hat{\theta}_n$ 几乎必然（a.s.）收敛于真实参数 $\theta_0$ 。然而，传统的收敛性分析通常关注渐近分布（如 $\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, \sigma^2)$ ），这主要描述了大样本下的分布形态，却未能回答关于收敛速度和路径行为的具体问题：

最后时刻 ( $N_\varepsilon$ )：估计量 $\hat{\theta}_n$ 最后一次偏离目标值超过 $\varepsilon$ 的样本量 $n$ 是多少？即 $N_\varepsilon = \sup\{n \ge 1: |\hat{\theta}_n - \theta_0| \ge \varepsilon\}$ 。
总次数 ( $Q_\varepsilon$ )：在无限序列中，估计量偏离目标值超过 $\varepsilon$ 的总次数是多少？即 $Q_\varepsilon = \sum_{n=1}^\infty I(|\hat{\theta}_n - \theta_0| \ge \varepsilon)$ 。

由于强一致性保证了 $N_\varepsilon$ 和 $Q_\varepsilon$ 几乎必然有限，本文旨在研究当 $\varepsilon \to 0$ 时，这两个随机变量的极限分布，并以此为基础比较不同估计量的优劣。

2. 方法论 (Methodology)

本文的核心方法论是将估计量的收敛过程转化为**随机过程（Stochastic Processes）**的极限行为分析。

随机过程逼近：
利用 Donsker 定理（泛函中心极限定理），将估计量的偏差过程 $\sqrt{m}(\hat{\theta}_{[mt]} - \theta_0)$ 逼近为布朗运动（Brownian Motion）或布朗桥（Brownian Bridge）的函数。
对于一维情况，关键引理表明：
$\sqrt{m} \sup_{n \ge m} \left| \frac{S_n}{n} \right| \xrightarrow{d} \sup_{t \ge 1} \left| \frac{W(t)}{t} \right| \stackrel{d}{=} \max_{0 \le s \le 1} |W(s)|$
其中 $W(t)$ 是标准布朗运动。
残差控制：
对于一般估计量 $\hat{\theta}_n$ ，假设其可表示为 $\hat{\theta}_n - \theta_0 = \sigma_0 \bar{Z}_n + R_n$ 。证明的关键在于控制残差项 $R_n$ ，要求 $\sqrt{m} \sup_{n \ge m} |R_n| \xrightarrow{p} 0$ 。这确保了极限分布主要由主导项（布朗运动项）决定。
多维与泛函扩展：
- 多维参数：将标量布朗运动推广为 $p$ 维布朗运动向量，并引入马氏距离（Mahalanobis distance）或欧几里得距离。
- 非参数估计：针对经验分布函数（Glivenko-Cantelli 定理）和核密度估计，利用两参数过程（Kiefer 过程）和更复杂的偏差 - 方差权衡分析。

3. 主要结果 (Key Results)

A. 参数估计 (Parametric Estimation)

极限分布：在正则条件下，当 $\varepsilon \to 0$ $ε \to 0$ 时：
- $\varepsilon^2 N_\varepsilon \xrightarrow{d} \sigma_0^2 W_{\max}^2$ ，其中 $W_{\max} = \max_{0 \le s \le 1} |W(s)|$ 。
- $\varepsilon^2 Q_\varepsilon \xrightarrow{d} \sigma_0^2 Q(0)$ ，其中 $Q(0)$ 是布朗运动路径 $|W(t)/t| \ge 1$ 的勒贝格测度。
矩的收敛：在适当的矩条件下（如 $E|Z_i|^{2+\lambda} < \infty$ ）， $\varepsilon^2 E[N_\varepsilon] \to 2G \sigma_0^2$ ，其中 $G \approx 0.916$ 是卡塔兰常数（Catalan's constant）。
多维推广：对于 $p$ 维参数， $\varepsilon^2 N_\varepsilon \xrightarrow{d} \chi^2_{p, \max}$ ，即 $p$ 维独立布朗运动平方和的最大值。

B. 非参数估计 (Nonparametric Estimation)

经验分布函数 (Glivenko-Cantelli)：
对于 $\|F_n - F\| \ge \varepsilon$ 的最后时刻， $\varepsilon^2 N_\varepsilon \xrightarrow{d} K_{\max}^2$ ，其中 $K_{\max}$ 是 Kiefer 过程在单位正方形上的最大值。
核密度估计：
由于偏差项的存在，收敛速度不同。对于最优带宽 $h_n \sim n^{-1/5}$ $h_{n} \sim n^{- 1/5}$ ，极限分布涉及 $\varepsilon^{5/2} N_\varepsilon$ $ε^{5/2} N_{ε}$ 。
- 带宽优化：研究发现，为了使期望的 $\varepsilon$ -偏离次数（ $E[N_\varepsilon]$ ）最小化，最优带宽常数应为传统均方误差（MSE）最优常数的 1.008 倍。

C. 估计量比较与最优性 (Comparison and Optimality)

渐近相对效率 (ARE) 的新定义：
传统的 ARE 定义为方差比 $\sigma_1^2 / \sigma_2^2$ 。本文证明，基于 $N_\varepsilon$ 和 $Q_\varepsilon$ 的极限分布，其比率也收敛于相同的方差比。这为 ARE 提供了基于“最后偏离时刻”和“总偏离次数”的全新概率解释。
极大似然估计 (MLE) 的优越性：
在参数模型中，MLE 序列具有随机最优性：对于任何给定的距离度量，没有其他估计量序列能在随机意义上比 MLE 更快地将尾部包含在 $\varepsilon$ -邻域内（即 MLE 的 $N_\varepsilon$ 和 $Q_\varepsilon$ 在随机序上最小）。
非参数密度估计的修正：
在核密度估计中，为了最小化偏离次数，最优平滑参数（带宽）应略大于传统 MSE 最优参数（因子 1.008）。

D. 其他应用

序贯置信区域：利用 $N_\varepsilon$ 的极限分布，可以构造固定体积或收缩体积的序贯置信集，保证覆盖概率为 1（在极限意义下）。
非独立同分布 (Non-i.i.d.) 情形：结果可推广至线性回归和自相关数据，只要满足过程收敛和尾部不等式条件。

4. 关键贡献 (Key Contributions)

理论突破：首次系统地建立了估计量“最后偏离时刻” ( $N_\varepsilon$ ) 和“总偏离次数” ( $Q_\varepsilon$ ) 的极限分布理论，填补了强一致性收敛速度量化研究的空白。
统一框架：提供了一个统一的框架，涵盖参数估计、非参数估计（经验分布、密度估计）、多维参数以及不同的距离度量。
新的最优性准则：确立了 MLE 在“最小化最后偏离时刻”和“最小化总偏离次数”意义上的渐近最优性，这是对传统方差最优性的有力补充。
实用指导：
- 为核密度估计的带宽选择提供了新的优化标准（基于最小化偏离次数，而非仅基于 MSE）。
- 为序贯置信区间和假设检验（功效为 1 的检验）的构造提供了理论依据。
数值结果：给出了 $W_{\max}$ 分布的精确矩（如期望、方差、偏度）以及卡塔兰常数在统计极限中的出现，并提供了相关的分位数表。

5. 意义与影响 (Significance)

统计推断的深化：该研究将统计推断的关注点从“分布收敛”扩展到了“路径收敛”和“停止时间”的分布，加深了对估计量收敛动态过程的理解。
模型选择与比较：提供了一种基于概率的、直观的方法来比较竞争估计量（例如，比较均值估计与中位数估计在正态分布下的表现，结果显示均值估计在约 72% 的情况下比中位数估计更早进入 $\varepsilon$ -邻域）。
序贯分析：为设计高效的序贯采样方案（Sequential Sampling）和置信区域提供了精确的渐近理论支持，特别是在需要严格控制误差次数或最后误差时刻的场景中。
连接概率与统计：巧妙地将概率论中的布朗运动极值理论（如 $W_{\max}$ ）与统计估计理论（如 Fisher 信息、MLE 性质）紧密结合，展示了概率工具在统计优化问题中的强大威力。

综上所述，这篇论文通过引入随机过程极限理论，重新定义了估计量收敛的“速度”和“稳定性”，为统计估计理论提供了新的视角和强有力的优化工具。

On the last time and the number of times an estimator is more than epsilon from its target value

1. 核心故事：猜谜者与“最后一次失误”

2. 核心发现：布朗运动与“最大偏差”

3. 谁是最好的猜谜者？（最优性）

4. 特殊场景：不仅仅是猜数字

5. 实际应用：什么时候该停止？

总结

论文技术总结

1. 研究问题 (Problem)

2. 方法论 (Methodology)

3. 主要结果 (Key Results)

4. 关键贡献 (Key Contributions)

5. 意义与影响 (Significance)

类似论文

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM