Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给加州的电网（CAISO）找一位最靠谱的“天气预报员”，而且这位预报员不仅要准，还要特别小心，不能犯“报低了”这种致命错误。

为了让你更容易理解，我们可以把整个电网想象成一个巨大的、时刻在变动的“家庭聚餐”。

1. 核心问题：为什么“平均准确率”不够用？

想象一下，你负责给 100 个客人点菜。

传统做法（只看 MAPE）： 如果你预测大家吃 100 道菜，结果大家吃了 110 道，你少算了 10 道；或者大家只吃了 90 道，你多算了 10 道。在传统的数学考试里，这两种错误是一样的，都扣 10 分。
电网的现实（不对称风险）：
- 多算了（Over-prediction）： 你点了 110 道菜，结果大家只吃了 90 道。后果是浪费钱，剩下的菜倒掉很可惜，但不会饿死人。
- 少算了（Under-prediction）： 你只点了 90 道菜，结果大家吃了 110 道。后果是有人饿肚子，甚至可能因为没饭吃引发混乱（电网停电/黑屏）。

论文的核心观点： 以前大家只盯着“平均误差”（MAPE），就像只盯着“扣了多少分”。但这篇论文说，对于电网来说，少算一顿饭的代价远大于多算一顿饭。所以，我们需要一种新的评价标准，专门盯着“会不会饿肚子”的风险。

2. 新工具：给预报员戴上“安全眼镜”

作者提出了一套新的“体检报告”，不再只看平均分，而是看三个关键指标：

低估率 (UPR)： 你有多少次没算够饭量？
备用金 (Reserve%)： 为了以防万一，你需要额外准备多少“应急菜”才能覆盖 99.5% 的意外情况？
虚假安全 (Fake Safety) 警报： 这是一个非常有趣的发现。

什么是“虚假安全”？
有些聪明的预报员发现：“哎呀，只要我把预测值故意往高了报，我就永远不会‘少算’了！”

比如，实际只要 100 份，他故意报 120 份。
结果： 他确实避免了“少算”的风险（UPR 降低了），但他把整个电网的预算都吹大了，导致电力公司不得不花冤枉钱去准备根本用不上的电。
比喻： 就像为了防小偷，你给家里装了一堵 10 米高的墙。虽然小偷进不来了（安全了），但你把邻居都挡在外面了，而且修墙花光了你的积蓄。这就是**“虚假安全”**。

这篇论文设计了一套规则，既要防止“少算”，又要禁止“故意乱报高”，要在两者之间找到完美的平衡点。

3. 主角登场：谁是最好的预报员？

作者找来了几类不同的“预报员”（AI 模型）在加州的电网数据上比武：

老派选手 (LSTM)： 像是一个记性很好的老会计，但记性有限，记不住太久的历史。
大模型选手 (Transformers)： 像是一个博学的教授，能同时分析很多变量（比如天气、时间、历史数据），但计算起来很慢，像大象转身。
新晋明星 (State Space Models / Mamba)： 这是论文的主角。
- 比喻： 想象 Mamba 是一个**“超级速记员”。它不需要像教授那样反复翻阅所有资料（计算量小），但它有一个“智能过滤器”**。
- 它的绝招： 它能自动决定哪些信息重要（比如现在的温度、明天的太阳），哪些噪音可以忽略。它读得很快（线性速度），而且能记住很长很久的历史（比如过去 10 天的用电习惯）。

比赛结果：

PowerMamba（Mamba 家族的一个特化版本）表现最出色。它既快又准，而且参数很少（就像一个小巧的瑞士军刀，而不是笨重的工具箱）。
在 24 小时的预测中，它的准确率达到了 3.68%，比加州电网官方目前的水平（4.55%）还要好，甚至比一些商业公司还要准。

4. 关键秘诀：结合“天气”和“建筑热惯性”

光有聪明的模型还不够，还得懂物理。

问题： 天气变热了，空调不会立刻全开。房子有“热惯性”（就像一杯热水，关火后还会热一会儿）。
解决方案： 作者教模型**“等一等”**。
- 如果现在是下午 2 点，模型不会只看 2 点的温度，而是会结合3 小时前的温度变化来预测现在的用电需求。
- 这就好比：你看到太阳出来了，不会马上觉得热，但你知道过半小时房子会热起来，所以你要提前开空调。
- 这种**“带时间延迟的天气融合”**策略，让所有模型的预测都变得更准，尤其是那些能处理复杂关系的模型（如 iTransformer 和 Mamba）。

5. 最大的发现：数据也有“盲区”

论文还发现了一个无奈的现实：

加州有很多**“屋顶太阳能”**（自家装的太阳能板）。这些电是“隐形”的，电网只能看到“净负荷”（大家用了多少 - 自己发了多少）。
就像你只能看到盘子里剩了多少菜，却看不到每个人自己手里藏了多少菜。
作者尝试把“屋顶太阳能的装机量”数据喂给模型，发现效果提升有限。
结论： 只要看不到这些“隐形”的发电数据，再厉害的 AI 也有预测上限。未来的突破可能不在于让 AI 更聪明，而在于把物理规则（比如太阳能怎么发电）直接写进 AI 的大脑里，让它学会“推理”出那些看不见的电。

总结：这篇论文告诉我们什么？

安全第一： 在电网这种关乎人命和经济的领域，“宁可多算，不可少算”，但**“不能乱算”**。我们需要一种新的评价标准来防止 AI 为了安全而故意乱报高。
新王登基： Mamba 这种新型 AI 架构，在处理电网这种长周期、有规律的数据时，比传统的 Transformer 更高效、更准确，而且更省钱（计算资源少）。
懂物理才准： 把天气和建筑的热惯性（时间延迟）结合起来，是提升预测精度的关键。
警惕“虚假安全”： 如果只追求降低“少算”的风险，AI 可能会变成一个只会报高价的“胆小鬼”，我们需要用数学约束把它拉回正轨。

简单来说，这篇论文就是给电网找了一个既聪明、又懂物理、还特别守规矩的“超级管家”，让加州的灯在极端天气下也能亮得稳稳当当。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心挑战：
电力负荷预测（特别是短期负荷预测，STLF）对于电网的安全运行至关重要。预测误差具有非对称性：

低估（Under-prediction）： 可能导致供电短缺，引发昂贵的快速爬坡备用调用、紧急购电，甚至导致轮动停电（Blackouts）。
高估（Over-prediction）： 通常导致不必要的发电成本和排放，但较少直接威胁系统稳定性。

现有方法的局限性：

评估指标不足： 传统的对称误差指标（如 MAPE、RMSE）无法区分低估和高估的风险。两个 MAPE 相似的模型，其尾部风险（Tail Risk）可能截然不同。
模型架构局限：
- 统计方法（ARIMA）难以捕捉非线性天气依赖。
- 循环神经网络（LSTM）难以处理长程依赖。
- Transformer 架构虽然能捕捉长程依赖，但计算复杂度为 $O(n^2)$ ，限制了上下文窗口长度（难以捕捉多周季节性模式），且推理延迟较高。
“虚假安全”（Fake Safety）风险： 在风险厌恶型预测中，概率模型可能通过系统性地**高估负荷（Inflation）**来人为降低低估率，从而在统计上显得“安全”，但这会导致调度成本剧增。

研究目标：
评估状态空间模型（SSMs，特别是 Mamba 架构）在加州独立系统运营商（CAISO）电网负荷预测中的表现，并提出一套面向操作员的可解释评估框架，以量化非对称风险并防止“虚假安全”。

2. 方法论 (Methodology)

A. 评估框架：操作员可解释的指标体系

作者提出了一套超越 MAPE 的评估指标，用于量化单向风险：

低估率 (UPR, Under-Prediction Rate)： 预测值低于实际值的频率。
99.5% 尾部备用需求 (Reserve% $_{99.5}$ )： 覆盖 99.5% 低估事件所需的额外向上备用容量（以 MW 或百分比表示）。
偏差诊断 (Bias/OPR)：
- Bias $_{24h}$ ： 24 小时预测的系统性偏差。
- OPR (Over-Prediction Rate)： 高估的频率。
- 目的： 识别模型是否通过系统性高估（Inflation）来换取尾部风险的降低。

B. 模型架构与对比

研究对比了五种神经网络架构，涵盖状态空间模型（SSM）、Transformer 和 LSTM：

S-Mamba： 最小化 SSM 架构，测试选择性状态空间机制本身是否足以处理电网动态。
PowerMamba： 专为能源数据设计的 SSM。引入序列分解（趋势/季节性）和双向处理，参数极少（2.5M）。
Mamba-ProbTSF： 带有概率输出头的 SSM，用于不确定性量化。
iTransformer： 变体 Tokenization，显式建模变量间（如负荷与天气）的交叉注意力。
PatchTST： 通道独立（Channel-Independent）的 Transformer，将单变量切分为 Patch。
LSTM & Chronos： 作为基准对比。

C. 关键创新：天气融合策略

考虑到建筑热惯性导致的热滞后（Thermal Lag，2-6 小时），作者为每种架构设计了匹配其归纳偏置的天气融合策略：

S-Mamba： 早期求和融合（Early Summation）。
PowerMamba： 分解前融合（Pre-Decomposition Fusion），让天气影响同时进入趋势和季节性分支。
PatchTST： 交错交叉注意力（Interleaved Cross-Attention），保持通道独立性。
iTransformer： 将天气作为额外的变体 Token 进行全局交叉注意力。
LSTM： 早期拼接（Early Concatenation）。

D. 损失函数：偏差约束的概率目标

为了防止“虚假安全”，作者提出了一种偏差约束的概率目标函数（Bias-Constrained Probabilistic Objective）：

使用加权多分位数 Pinball 损失（Multi-quantile Pinball Loss）来校准分布。
引入Hinge 惩罚项，限制 24 小时预测的中位数偏差（Bias）和过预测率（OPR）。
公式核心： $L_{total} = L_{quantile} + \lambda_{bias} \cdot \max(0, \text{Bias} - b_{max}) + \lambda_{opr} \cdot \max(0, \text{OPR} - \pi_{max})$ 。
这使得模型在降低尾部风险的同时，必须保持可接受的调度偏差，实现可审计的权衡。

3. 实验设置 (Experimental Setup)

数据集： CAISO（加州独立系统运营商）数据，2023 年 11 月至 2025 年 11 月，包含 5 个主要传输区域，共 84,498 条小时级记录。
上下文窗口： 240 小时（10 天），以捕捉完整的周周期。
评估协议： 滚动原点前向回测（Rolling-origin Walk-forward Backtest）。
天气数据： 包含温度、湿度、辐射等 8 个气象协变量，并根据交叉相关分析确定了最佳滞后时间（如温度滞后 3 小时）。
硬件： NVIDIA RTX 5090 GPU。

4. 主要结果 (Key Results)

A. 精度与效率

PowerMamba 表现优异： 在引入热滞后天气数据后，PowerMamba 在 24 小时预测中达到了 3.68% 的 MAPE，优于 CAISO 官方发布的 4.55% 和大多数商业模型。
参数效率： PowerMamba 仅使用 2.5M 参数，远少于 iTransformer (6.5M) 和 S-Mamba (16.4M)，却实现了最佳或接近最佳的精度。
Transformer 对比： iTransformer 在长时域（6h-24h）表现良好，但 PatchTST 在纯负荷预测中表现较弱，说明在天气融合场景下，显式建模变量间相关性（iTransformer）或针对 SSM 的特定设计（PowerMamba）更有效。

B. 天气融合的影响

显式的天气融合显著收窄了误差分布，特别是在温度驱动的负荷尖峰期间。
不同架构对天气融合的受益程度不同：iTransformer 受益于交叉注意力机制，而 PatchTST 受益较小。

C. 揭示“虚假安全”与偏差控制

发现： 仅使用多分位数损失（Multi-Q）训练的模型，虽然降低了尾部备用需求（Reserve% $_{99.5}$ ），但往往伴随着巨大的系统性正偏差（例如 iTransformer 偏差增加至 +1862 MW，OPR 高达 78.8%）。
解决： 引入 Bias/OPR 约束后，模型在保持尾部风险降低的同时，显著减少了系统性高估（例如 iTransformer 的偏差从 +1862 MW 降至 +456 MW），尽管这略微牺牲了部分尾部指标（Reserve% $_{99.5}$ 从 13.83% 升至 15.18%），但实现了可审计的、真实的安全权衡。

D. 基础模型 (Foundation Models)

Chronos 等基础模型在零样本（Zero-shot）设置下表现不如专门训练的模型，且增加参数量（从 8M 到 200M）并未带来性能提升，表明通用预训练缺乏处理电网物理约束（如热惯性与 BTM 发电交互）的结构先验。

5. 核心贡献与意义 (Contributions & Significance)

提出了电网特定的评估框架：
超越了 MAPE，引入了 UPR、Reserve% $_{99.5}$ 和 Bias/OPR 诊断指标，能够量化非对称操作风险，防止模型通过“虚假安全”（系统性高估）来欺骗评估。
验证了 SSM (Mamba) 在电网预测中的优越性：
证明了 Mamba 架构（特别是 PowerMamba）在处理长序列、周期性电网数据时，兼具线性复杂度 $O(n)$ 和高精度，且参数效率极高，适合边缘部署。
揭示了概率校准的陷阱并提出了约束方案：
首次系统性地展示了无约束的概率训练会导致系统性调度膨胀。提出的偏差约束概率目标为操作员提供了一种在“降低尾部风险”和“避免过度调度”之间进行可审计权衡的方法。
系统化的天气融合策略：
针对不同架构设计了匹配其归纳偏置的天气融合方法（考虑热滞后），显著提升了极端天气下的预测鲁棒性。

实际意义：
该研究为电网运营商提供了一种更安全的预测范式：不仅关注平均精度，更关注尾部风险和调度偏差。通过采用 PowerMamba 等高效模型并结合偏差约束训练，电网可以在不增加基础设施成本的情况下，降低备用容量需求，提高对极端天气和可再生能源波动的应对能力。