Enhancing Continual Learning for Software Vulnerability Prediction: Addressing Catastrophic Forgetting via Hybrid-Confidence-Aware Selective Replay for Temporal LLM Fine-Tuning

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要解决了一个非常现实的问题：如何让电脑程序（AI）在不断学习新漏洞的同时，不忘记以前学过的旧知识？

想象一下，你是一位网络安全侦探，你的工作是每天从海量的代码中找出隐藏的“安全漏洞”（就像在成千上万行文字里找错别字或陷阱）。

1. 核心挑战：侦探的“健忘症”

现在的 AI 模型（就像这位侦探）很聪明，但它们有一个致命弱点：“灾难性遗忘”。

场景：侦探刚学会识别 2023 年的新型黑客攻击手法，结果为了学习 2024 年的新手法，大脑把 2023 年的知识全给覆盖了。
后果：当黑客用 2023 年的老套路再次攻击时，侦探却完全认不出来了。
现实困境：软件代码每天都在变，漏洞也在不断进化。如果让侦探把过去 7 年（2018-2024）的所有案例都重新背一遍再学习，时间根本来不及（计算成本太高）；如果只学最新的，又会忘记旧的。

2. 研究者的解决方案：聪明的“复习策略”

作者提出了一种名为 Hybrid-CASR 的新方法，我们可以把它比作侦探的**“智能错题本”**。

传统的复习方法有两种极端：

只学新课（Window-only）：不管以前学过的，只盯着今天的案子。结果：旧案子全忘了。
死记硬背（Cumulative）：把过去 7 年所有的案子都背一遍。结果：累得半死，效率极低，而且因为案子太多太杂，反而学不精。

Hybrid-CASR（混合自信度感知选择性回放）是怎么做的呢？
它像一位精明的老教官，在复习时遵循两个原则：

挑“难点”复习（自信度感知）：教官不会让侦探复习那些他早就烂熟于心的简单案子，而是专门挑那些侦探拿不准、容易搞错的“疑难杂症”进行重点复习。
保持“平衡”（类别平衡）：在代码世界里，“有漏洞的代码”通常比“没漏洞的代码”少得多（就像坏苹果比好苹果少）。如果只挑难点，可能会挑到太多好苹果，导致侦探忘了怎么抓坏苹果。所以，教官强制要求：复习时，坏苹果和好苹果的比例要维持平衡，确保侦探两边都不偏废。

3. 实验结果：既快又准

作者用了一个叫 Phi-2 的 AI 模型（相当于一个中等体型的侦探），在 2018 到 2024 年的数据上进行了测试，把时间切分成每两个月一个阶段。

效果对比：
- 只学新课：准确率一般，容易忘。
- 死记硬背：准确率稍微高一点点，但训练时间慢了 15.9 倍（就像为了多考 1 分，花了 16 个小时复习，完全不划算）。
- Hybrid-CASR（新方法）：
  - 准确率最高：比只学新课提高了约 1.6%（在安全领域，这已经是显著的进步）。
  - 不忘旧知：在测试旧漏洞时，表现比死记硬背还要好。
  - 速度快：训练时间比只学新课还快了 17%。因为它只复习“关键难点”，不浪费时间在简单内容上。

4. 一个有趣的发现：时间切分没那么重要

研究者还测试了不同的时间切分方式：是每个月复习一次？还是每季度、每半年复习一次？

结果：令人惊讶的是，无论切分得细还是粗，最终效果都差不多。
比喻：这就像背单词，是每天背 10 个，还是每周背 70 个，只要总量和复习策略对，最终词汇量差别不大。这意味着在实际工作中，公司不需要为了追求完美的“时间切片”而纠结，可以根据资源灵活安排。

5. 总结与启示

这篇文章告诉我们，在网络安全这个不断变化的领域，“全都要”是不现实的，“只学新”是危险的。

最佳策略：采用**“智能错题本”**（Hybrid-CASR）。只复习那些容易混淆的、且保持正负样本平衡的案例。
现实意义：这种方法既省时间（效率高），又防遗忘（稳定性好），是目前让 AI 在长期运行中保持敏锐的最佳折中方案。
局限性：虽然 AI 进步了，但它还不是完美的“神探”。在遇到全新的、从未见过的攻击模式时，AI 还是会犯错，所以人类专家的把关依然不可或缺。

一句话总结：
这就好比教一个侦探抓小偷，最好的办法不是让他把过去所有案卷都背下来，而是给他一本精心挑选的“疑难错题集”，让他重点攻克那些容易混淆的案子，这样他既能记住老套路，又能快速适应新招数，而且学得还快！

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：

现实部署的时序性： 现有的软件漏洞检测研究大多依赖随机划分训练/测试集，忽略了时间维度。在实际场景中，代码库是不断演变的，漏洞检测模型面临时间分布偏移（Temporal Distribution Shift）和概念漂移（Concept Drift）。
灾难性遗忘（Catastrophic Forgetting）： 当模型在持续更新的数据流上进行微调时，往往会出现对新数据适应良好，但遗忘旧任务（历史漏洞模式）的现象。
数据不平衡与计算成本： 漏洞数据中“已修复（Fixed）”样本远多于“漏洞（Vulnerable）”样本，且随着时间推移，不同时间窗口的类别分布差异巨大。此外，在单 GPU 环境下，对累积历史数据进行全量重训（Cumulative Training）计算成本过高，难以在实际部署中落地。
评估偏差： 传统评估方法未能模拟真实的时间推移，导致性能被高估。

研究目标：
探索如何在参数高效微调（Parameter-Efficient Fine-Tuning）的大语言模型（LLM）上，通过持续学习（Continual Learning, CL）策略，在适应新漏洞模式的同时，有效缓解灾难性遗忘，并平衡准确性与计算效率。

2. 方法论 (Methodology)

2.1 实验设置与数据

模型架构： 使用 microsoft/phi-2（27 亿参数解码器模型）作为基座。采用 LoRA（低秩适应）进行参数高效微调，冻结主干参数，仅更新低秩矩阵。
数据集构建： 基于 CVEfixes 数据库，链接 2018-2024 年的 CVE 披露记录与代码修复提交（Commit）。
- 实例生成： 提取修复前的漏洞函数（Vulnerable, $y=1$ ）和修复后的函数（Fixed, $y=0$ ）。
- 时间锚点： 严格使用 CVE 披露日期而非提交日期作为时间戳，防止未来信息泄露。
- 去重： 基于函数体哈希去重，确保训练集和测试集无重叠。
时间窗口： 将数据划分为 双月（Bi-monthly） 窗口，共 42 个连续窗口。
评估协议：
- 前向评估（Forward Evaluation）： 在窗口 $W_t$ 训练，仅在 $W_{t+1}$ 测试，模拟真实部署。
- 后向保留（Backward Retention）： 测试模型在训练完 $W_t$ 后，对历史窗口 $W_{t-k}$ 的保留能力（IBR@k）。

2.2 持续学习策略对比

研究评估了 8 种策略，包括基线、重放（Replay）和正则化方法：

Window-only: 仅在当前窗口微调，丢弃历史数据（基准，易遗忘）。
Cumulative: 累积所有历史数据微调（计算昂贵，作为性能上限参考）。
Replay-1P / Replay-3P: 从最近 1 个或 3 个窗口均匀采样重放。
CASR (Confidence-Aware Selective Replay): 基于模型不确定性（置信度低）优先选择难例进行重放。
LB-CL: 使用类别加权损失函数解决不平衡，无重放缓冲区。
OLoRA: 正交正则化，约束新参数更新方向与旧参数子空间正交。
Hybrid-CASR (本文提出): 混合类感知选择性重放。
- 机制： 结合“基于置信度的难例选择”与“显式的类别平衡”。
- 流程： 首先从缓冲区中按类别（Vulnerable/Fixed）等量采样构建候选集，然后在各类别内部按不确定性排序。重放缓冲区中 70% 为高不确定性样本，30% 为均匀采样样本，以确保既关注决策边界又维持类别平衡。

3. 主要贡献 (Key Contributions)

严格的时间评估协议： 设计了一个符合实际部署的“前向链式训练 + 滞后后向测试”协议，避免了随机划分带来的数据泄露，真实反映了 LLM 在长期时间漂移下的表现。
时间粒度消融研究： 系统性地测试了从 1 个月到 12 个月不等的窗口粒度，发现不同粒度下的宏观 F1 分数差异极小（0.651–0.669），挑战了存在单一最优时间分割的假设。
提出 Hybrid-CASR 算法： 针对漏洞检测中严重的类别不平衡和概念漂移，提出了一种混合重放策略。它通过平衡难例挖掘与类别分布，显著优于纯重放或纯正则化方法。
资源 - 性能权衡分析： 提供了详细的计算成本分析（训练时间、显存、F1/分钟），证明了 Hybrid-CASR 在保持高精度的同时，比累积训练节省了大量计算资源，比单纯的时间窗口微调更高效。

4. 实验结果 (Results)

4.1 性能表现 (Forward Performance)

Hybrid-CASR 表现最佳： 在双月窗口设置下，平均 Macro-F1 达到 0.667。
显著性提升： 相比 Window-only 基线 (0.651)，提升了 0.016 (p=0.026)，且效果具有统计显著性。
对比其他方法：
- Cumulative Training (0.661) 性能接近但计算成本极高。
- Replay-1P 和 CASR 表现次之 (0.659)。
- OLoRA (0.599) 和 Replay-3P (0.622) 表现较差，表明过度约束或过大的历史缓冲区可能阻碍模型适应新的漏洞模式。

4.2 知识保留 (Knowledge Retention)

IBR@1 (即时后向保留)： Hybrid-CASR 达到 0.741，显著优于 Window-only (0.713) 和 Cumulative (0.661)。
稳定性： Hybrid-CASR 的遗忘率（Decay rate）仅为 4.2%，而 Replay-1P 为 7.8%。这表明 Hybrid-CASR 在保持新知识和旧知识之间取得了更好的平衡。
反直觉发现： 累积训练虽然遗忘率为 0%，但其绝对保留分数（0.661）低于选择性重放方法，说明在分布偏移下，全量记忆可能引入干扰，而选择性记忆更有效。

4.3 计算效率

训练时间： Hybrid-CASR 每个窗口仅需 7.2 分钟 (432 秒)，比 Window-only (8.7 分钟) 快约 17%，比 Cumulative (138.2 分钟) 快 19 倍。
效率指标 (F1/min)： Hybrid-CASR 为 0.093，比基线 (0.075) 高出 24%。
显存： Hybrid-CASR 显存占用约 19.8 GB，略高于基线 (13.5 GB)，但在单卡 A100 可承受范围内。

4.4 时间粒度分析

不同窗口粒度（1, 2, 3, 6, 12 个月）的平均 Macro-F1 均在 0.651–0.669 之间。
季度窗口（3 个月）表现略优，但差异不显著。结论是：组织可以根据资源情况选择更新频率，无需过度追求特定粒度以获得性能提升。

5. 意义与局限性 (Significance & Limitations)

意义

实践指导： 证明了在单 GPU 环境下，通过混合选择性重放（Hybrid-CASR）可以实现高效、稳定的持续漏洞检测，为工业界部署 LLM 提供了可行的技术路径。
理论突破： 揭示了在代码漏洞检测领域，简单的累积训练并非最优解，且“遗忘”在一定程度上是适应新分布所必需的；类别平衡在持续学习中对处理不平衡数据至关重要。
基准建立： 建立了一个基于 CVEfixes 的、严格的时间序列评估框架，为未来研究提供了可复现的基准。

局限性

模型架构单一： 仅使用了 phi-2 解码器模型，未验证编码器（如 CodeBERT）或其他架构的表现。
数据偏差： 数据集主要覆盖 C/C++ 和 Java，其他语言的代表性不足。
预训练数据泄露风险： phi-2 发布较晚（2023 年底），其预训练语料可能包含 2018-2023 年的漏洞代码，可能导致性能被高估。
阈值固定： 使用固定的 0.5 决策阈值，未考虑实际场景中误报（False Positive）和漏报（False Negative）成本的非对称性。

总结

该论文通过严格的时序评估，证明了Hybrid-CASR是一种在准确性、稳定性和计算效率之间取得最佳平衡的持续学习策略。它通过结合置信度感知和类别平衡的重放机制，有效解决了 LLM 在动态漏洞检测中的灾难性遗忘问题，为构建长期演进的智能漏洞检测系统提供了重要的理论依据和工程实践参考。