Enhancing Continual Learning for Software Vulnerability Prediction: Addressing Catastrophic Forgetting via Hybrid-Confidence-Aware Selective Replay for Temporal LLM Fine-Tuning

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Le Médecin qui Oublie

Imaginez un médecin très intelligent (un Grand Modèle de Langage ou LLM) dont le travail est de repérer les maladies cachées dans le code informatique (les vulnérabilités).

Le problème, c'est que les "maladies" (les bugs de sécurité) changent tout le temps. De nouvelles apparaissent chaque jour, et les anciennes disparaissent ou se transforment.

Si le médecin étudie uniquement les maladies de ce mois-ci, il devient excellent pour les détecter maintenant, mais il oublie tout ce qu'il savait sur les maladies des mois précédents. C'est ce qu'on appelle l'"oubli catastrophique".
Si le médecin relit tous les dossiers médicaux depuis 10 ans à chaque fois qu'une nouvelle maladie arrive, il ne l'oubliera pas, mais il mettra des années à se former. C'est trop lent et trop coûteux pour être utile en temps réel.

La question de cette étude est : Comment faire apprendre ce médecin jour après jour, sans qu'il oublie son passé et sans qu'il passe sa vie à réviser ?

🛠️ La Solution : La "Révision Intelligente et Équilibrée"

Les chercheurs ont testé plusieurs méthodes pour entraîner ce médecin sur des données réelles (des failles de sécurité découvertes entre 2018 et 2024). Ils ont comparé 8 stratégies différentes.

Le grand gagnant s'appelle Hybrid-CASR. Voici comment il fonctionne avec une analogie simple :

1. Le Problème du "Déséquilibre"

Dans le monde du code, il y a beaucoup plus de fonctions "saines" (non vulnérables) que de fonctions "malades" (vulnérables). C'est comme si 90 % des patients étaient en bonne santé et seulement 10 % étaient malades.
Si le médecin s'entraîne au hasard, il va passer son temps à voir des gens en bonne santé et finira par penser que "tout le monde est en bonne santé". Il ne verra plus les malades !

2. La Méthode "Hybrid-CASR" (Le Coach Malin)

Cette méthode utilise un replay (une répétition), mais avec deux règles d'or :

La Règle de l'Incertitude (Le "Doute") : Au lieu de relire n'importe quel dossier, le coach sélectionne uniquement les cas où le médecin était le plus hésitant. C'est comme dire : "Tu as eu du mal à diagnostiquer ce cas l'autre jour ? Relisons-le ensemble !". Cela permet de renforcer les points faibles.
La Règle de l'Équilibre (Le "Mélange") : Le coach s'assure que dans la pile de dossiers à relire, il y a autant de malades que de gens en bonne santé. Même si les malades sont rares dans la vraie vie, on force le médecin à en voir autant que les autres pour qu'il ne les oublie pas.

L'analogie du buffet : Imaginez que vous devez apprendre à cuisiner.

Méthode classique : Vous mangez 90 % de salade (le code sain) et 10 % de steak (le code vulnérable). Vous oubliez comment cuisiner le steak.
Méthode Hybrid-CASR : Vous créez un menu spécial où vous forcez l'équilibre : 50 % de salade, 50 % de steak, mais vous choisissez les steaks les plus difficiles à cuire pour vous entraîner spécifiquement dessus.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont comparé cette méthode à d'autres (comme relire tout l'historique ou juste travailler sur le mois en cours).

Précision : La méthode "Hybrid-CASR" est la plus performante. Elle repère mieux les failles que les autres méthodes, avec un score de réussite de 66,7 % (contre 65,1 % pour la méthode simple). Ce n'est pas énorme, mais c'est statistiquement significatif !
Mémoire : Elle se souvient très bien des anciennes maladies (elle oublie moins que les autres).
Vitesse et Coût : C'est le point crucial.
- La méthode qui relit tout l'historique (Cumulative) est 16 fois plus lente et ne gagne presque rien en précision. C'est comme vouloir apprendre à conduire en lisant tous les manuels de l'histoire de l'automobile avant de toucher une voiture.
- La méthode "Hybrid-CASR" est rapide (elle prend environ 7 minutes par fenêtre de temps) et économise de l'énergie tout en étant plus intelligente.

💡 La Leçon Principale

Cette étude nous apprend deux choses importantes pour l'avenir de la sécurité informatique :

La régularité compte plus que la granularité : Peu importe si vous mettez à jour votre modèle tous les mois ou tous les trimestres, le résultat est à peu près le même. L'important est de le faire régulièrement.
La qualité de la révision bat la quantité : Il ne sert à rien de relire des milliers de pages si vous ne vous concentrez pas sur les cas difficiles et si vous ne gardez pas un équilibre entre les différents types de problèmes.

En résumé : Pour protéger nos systèmes informatiques contre les pirates qui changent de tactique tous les jours, il ne faut pas un robot qui lit tout ce qui a été écrit depuis le début de l'humanité. Il faut un robot qui sait quand réviser, quoi réviser (les cas difficiles) et comment garder l'équilibre entre les différents types de menaces. C'est exactement ce que propose cette nouvelle méthode.

Each language version is independently generated for its own context, not a direct translation.

Titre

Amélioration de l'apprentissage continu pour la prédiction des vulnérabilités logicielles : Atténuation de l'oubli catastrophique via un replay sélectif hybride à conscience de la confiance pour le fine-tuning temporel de LLM.

1. Problématique

La détection des vulnérabilités logicielles est confrontée à un défi majeur : les bases de code évoluent continuellement, entraînant un décalage de distribution temporel (concept drift). Les modèles d'apprentissage automatique traditionnels, souvent évalués via des splits aléatoires train-test, surestiment leurs performances réelles car ils ne tiennent pas compte de la dimension temporelle et souffrent de fuites de données (le modèle "voit" le futur lors de l'entraînement).

Lorsqu'un modèle est déployé sur une base de code en évolution, il doit apprendre de nouvelles vulnérabilités sans oublier les anciennes. Ce phénomène, connu sous le nom d'oubli catastrophique (catastrophic forgetting), est particulièrement critique pour les détecteurs de vulnérabilités. De plus, les données présentent un déséquilibre de classe fort (fonctions vulnérables vs. corrigées) et des contraintes computationnelles limitent le réentraînement complet sur l'historique cumulatif.

2. Méthodologie

Données et Protocole Temporel

Source de données : Un jeu de données lié aux CVE (Common Vulnerabilities and Exposures) couvrant la période 2018–2024, extrait de la base CVEfixes.
Granularité : Les données sont segmentées en fenêtres bimensuelles (tous les deux mois), créant 42 fenêtres temporelles consécutives.
Prétraitement : Création d'instances au niveau de la fonction (fonction vulnérable avant correction vs. fonction corrigée après). Un processus de déduplication strict est appliqué pour éviter que des fonctions n'apparaissent à la fois dans l'entraînement et le test futur.
Évaluation : Un protocole d'évaluation forward-chaining (enchaînement vers l'avant) strict est utilisé. Le modèle entraîné sur la fenêtre $W_t$ est testé uniquement sur $W_{t+1}$ . Des tests rétrospectifs (IBR) sont également effectués pour mesurer la rétention des connaissances passées.

Architecture du Modèle

Base : Utilisation du modèle microsoft/phi-2 (2,7 milliards de paramètres), un modèle de type decoder (génération de texte), choisi pour sa capacité à traiter le contexte causal (contrairement aux encodeurs comme CodeBERT qui pourraient intégrer des signaux futurs).
Fine-tuning : Adaptation via LoRA (Low-Rank Adaptation) pour des raisons d'efficacité computationnelle. Seuls les paramètres des matrices d'attention et MLP sont mis à jour, le reste du modèle restant gelé.

Stratégies d'Apprentissage Continu (CL) Évaluées

Huit stratégies ont été comparées :

Baselines : Zero-shot, Entraînement par fenêtre uniquement (Window-only), Entraînement cumulatif (Cumulative).
Méthodes par Replay : Replay-1P (fenêtre précédente), Replay-3P (3 fenêtres), CASR (Replay sélectif basé sur l'incertitude).
Méthodes Hybrides et Régularisation :
- Hybrid-CASR (Proposition) : Combine la sélection d'échantillons incertains (basée sur la confiance du modèle) avec un rééquilibrage explicite des classes (ratio fixe Vulnérable/Corrigé dans le tampon de replay).
- LB-CL : Perte pondérée par classe.
- OLoRA : Contraintes d'orthogonalité sur les mises à jour LoRA.

3. Contributions Clés

Protocole d'évaluation temporel fidèle : Conception d'un protocole d'évaluation sans fuite de données, simulant un déploiement réel où le modèle ne connaît que les vulnérabilités passées.
Analyse d'ablation de granularité : Étude systématique de l'impact de la taille des fenêtres (mensuelle à annuelle), montrant que la performance globale est étonnamment stable quelle que soit la granularité.
Proposition de Hybrid-CASR : Développement d'une méthode de replay qui adresse simultanément l'oubli catastrophique et le déséquilibre de classe en priorisant les échantillons incertains tout en maintenant un ratio équilibré entre les classes minoritaires et majoritaires.
Analyse coût-performance : Évaluation rigoureuse du compromis entre précision (Macro-F1), stabilité (rétention) et coût computationnel (temps et mémoire GPU).

4. Résultats Principaux

Performance Globale (Macro-F1) :
- La méthode Hybrid-CASR obtient le meilleur score moyen de 0,667, surpassant significativement la baseline "fenêtre uniquement" (0,651) avec un gain de 0,016 ( $p=0,026$ ).
- L'entraînement cumulatif atteint un score similaire (0,661) mais à un coût computationnel prohibitif (15,9 fois plus lent).
Rétention des connaissances (Stabilité) :
- Hybrid-CASR montre une excellente rétention rétrospective (IBR@1 = 0,741), bien supérieure à l'entraînement cumulatif (0,661) qui, paradoxalement, oublie plus vite les motifs spécifiques malgré l'accès à toutes les données.
- Replay-1P obtient la rétention la plus élevée (0,791) mais un score forward légèrement inférieur à Hybrid-CASR.
Efficacité Computationnelle :
- Hybrid-CASR est 24 % plus efficace (en termes de F1 par minute) que l'entraînement par fenêtre simple, grâce à la réduction du nombre d'étapes de gradient nécessaires grâce au replay sélectif.
- L'entraînement cumulatif est jugé impraticable pour des mises à jour fréquentes (138 min par fenêtre vs 7,2 min pour Hybrid-CASR).
Granularité Temporelle :
- Aucune granularité (1, 2, 3, 6 ou 12 mois) ne domine clairement. Les scores varient faiblement (0,651 à 0,669), suggérant que le choix de la fenêtre dépend plus des ressources disponibles que d'un gain de performance théorique.
Scénarios Difficiles :
- Lors de périodes de forte dérive conceptuelle (ex. : événements Spectre/Meltdown en 2019), les méthodes de replay sélectif (Hybrid-CASR) résistent mieux que les méthodes de régularisation rigide (OLoRA) ou le replay massif (Replay-3P).

5. Signification et Implications

Validation de l'approche Hybride : L'étude démontre que pour la détection de vulnérabilités, un replay sélectif et équilibré est supérieur à un replay aléatoire ou à un entraînement cumulatif exhaustif. La gestion du déséquilibre de classe est aussi cruciale que la gestion de l'incertitude.
Faisabilité du déploiement : Hybrid-CASR offre un compromis pratique pour les environnements réels (GPU unique), permettant des mises à jour fréquentes sans oublier les connaissances passées, contrairement aux approches cumulatives trop lourdes.
Limites et Avertissements :
- Les performances globales (Macro-F1 ~66 %) indiquent que ces modèles doivent rester des outils d'aide à la décision nécessitant une validation humaine, et non des oracles autonomes.
- Il existe un risque de contamination des données d'entraînement (le modèle phi-2 ayant été pré-entraîné sur des données incluant potentiellement des vulnérabilités de la période d'évaluation).
- Les résultats sont principalement basés sur des langages C/C++ et Java.

Conclusion : Ce travail établit un cadre reproductible pour l'évaluation temporelle des LLM dans la sécurité logicielle et propose Hybrid-CASR comme une solution robuste et efficace pour maintenir la plasticité (apprentissage du nouveau) et la stabilité (rétention de l'ancien) dans un contexte de dérive temporelle continue.