Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si nous en discutions autour d'un café.

🕵️‍♂️ Le Problème : La Grande Bibliothèque Oubliée

Imaginez que votre entreprise est une immense bibliothèque remplie de millions de livres (les logiciels). Parmi ces livres, certains contiennent des recettes secrètes pour verrouiller les portes (les algorithmes de cryptographie).

Aujourd'hui, les voleurs (les pirates informatiques) et les futurs super-ordinateurs (les ordinateurs quantiques) menacent de casser ces serrures. Pour se protéger, il faut savoir exactement quels livres contiennent ces serrures.

Le problème ? Il y a trop de livres ! Les bibliothécaires (les experts en sécurité) ne peuvent pas les lire un par un à la main. Les outils automatiques actuels sont comme des robots qui ne savent lire que certains types d'écriture : ils ratent souvent les livres complexes ou cachés.

🤖 La Solution : Une Équipe de Détectives IA

Les auteurs de cette étude ont eu une idée brillante : utiliser des Intelligences Artificielles (IA), et plus précisément de grands modèles de langage (comme des versions très avancées de ChatGPT), pour aider à trier cette bibliothèque.

Mais attention, ils ne veulent pas envoyer leurs secrets sur internet (pour des raisons de confidentialité). Ils utilisent donc des IA qui tournent directement sur leurs propres ordinateurs, comme des détectives qui travaillent dans un bureau sécurisé, sans jamais sortir.

🗣️ La Méthode : Le Vote à la Majorité

Voici comment ils procèdent, étape par étape, avec une analogie simple :

L'Interrogatoire (Le "Prompt") :
Au lieu de demander à l'IA de lire tout le code (ce qui est trop long), ils lui donnent une fiche d'identité du logiciel : son nom, une petite description et la liste de ses amis (ses dépendances).
Analogie : C'est comme demander à un détective : "Ce livre s'appelle 'OpenSSL', il parle de sécurité et il est souvent cité dans des manuels de mathématiques. Penses-tu qu'il contient une serrure ?"
L'Équipe de Détectives (Les Modèles) :
Ils ne font pas confiance à un seul détective. Ils en recrutent cinq différents (des IA différentes). Chacun donne son avis : "Oui, c'est une serrure" ou "Non, c'est juste un livre de cuisine".
Le Vote (La Majorité) :
C'est ici que la magie opère. Si 3 détectives sur 5 disent "Oui", alors on considère que le logiciel contient bien une cryptographie.
Pourquoi ? Parce que si un détective se trompe, les autres peuvent le corriger. C'est comme un jury : la décision du groupe est souvent plus fiable que celle d'un seul individu.
L'Amélioration (L'Entraînement) :
Au début, les IA se trompaient souvent ou ne répondaient pas bien. Les chercheurs ont appris à mieux poser les questions (ce qu'on appelle l'ingénierie de "prompt"). C'est comme apprendre à un chien de police à mieux comprendre les ordres. Ils ont aussi appris à corriger les petites erreurs de formatage dans les réponses des IA.

📊 Les Résultats : Une Réussite Prometteuse

Après avoir testé cette méthode sur plus de 65 000 logiciels (comme ceux de Fedora Linux), voici ce qu'ils ont découvert :

Cela fonctionne ! L'équipe d'IA a réussi à repérer les logiciels importants avec une fiabilité très élevée (environ 86% de réussite).
La force du groupe : Même si chaque IA individuelle n'est pas parfaite, leur vote combiné est très solide.
Pas besoin d'être un expert : Cette méthode ne demande pas de connaître la cryptographie par cœur. L'IA fait le travail de tri, et les humains n'ont plus qu'à vérifier les cas douteux.
Confidentialité totale : Tout se passe sur place, rien n'est envoyé au cloud. Vos secrets restent dans votre bureau.

🚀 Pourquoi c'est important pour demain ?

Aujourd'hui, nous utilisons des serrures classiques. Demain, les ordinateurs quantiques pourront les ouvrir en une seconde. Pour changer nos serrures (passer à la "cryptographie post-quantique"), il faut d'abord savoir où elles sont !

Cette étude nous donne un filtre intelligent et rapide pour faire le tri. Au lieu de passer des années à chercher une aiguille dans une botte de foin, nous avons maintenant un aimant qui attire les aiguilles. Cela permet aux entreprises de se préparer sereinement à l'avenir, sans perdre de temps ni exposer leurs données.

En résumé : C'est comme avoir une équipe de cinq détectives IA qui travaillent en secret pour vous aider à trouver toutes les serrures de votre maison, afin que vous puissiez les changer avant que les voleurs ne les craquent.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les infrastructures informatiques modernes font face à une menace croissante, notamment les attaques persistantes avancées et la vulnérabilité future des systèmes classiques face à l'informatique quantique. Pour assurer la crypto-agilité (la capacité à adapter rapidement les mécanismes cryptographiques) et préparer la transition vers la cryptographie post-quantique (PQC), il est impératif d'établir un inventaire fiable des actifs cryptographiques au sein d'environnements hétérogènes.

Les défis majeurs identifiés sont :

Volume et complexité : Les organisations gèrent des dizaines de milliers de paquets logiciels avec des dépendances transitives complexes, rendant l'identification manuelle impossible à grande échelle.
Limites des méthodes traditionnelles : Les analyses statiques (STATIC) et les approches basées sur la connaissance (KNOW, comme les expressions régulières) souffrent de faux positifs, de dépendance aux conventions de nommage et d'une difficulté à gérer la diversité des écosystèmes modernes (conteneurs, microservices, binaires propriétaires).
Besoin de confidentialité : Les solutions basées sur le cloud (LLM en ligne) posent des problèmes de confidentialité pour les entreprises, nécessitant une approche sur site (on-premises).

L'objectif de cette recherche est de déterminer si les Grands Modèles de Langage (LLM) peuvent servir d'outils heuristiques pour découvrir automatiquement les paquets logiciels pertinents pour la cryptographie, tout en préservant la confidentialité des données.

2. Méthodologie

L'approche proposée repose sur un cadre collaboratif utilisant plusieurs LLM locaux, fonctionnant sans connexion à des serveurs externes.

A. Collecte de Données

Source : Le jeu de données provient de la distribution Fedora Linux, contenant 65 295 paquets uniques.
Informations utilisées : Pour chaque paquet, les auteurs extraient le nom, la description et les dépendances de premier niveau via le gestionnaire de paquets dnf. Ces informations servent de contexte pour les requêtes LLM.

B. Architecture Collaborative (Ensemble de LLM)

Au lieu de s'appuyer sur un seul modèle, l'étude utilise un vote majoritaire entre plusieurs modèles locaux pour améliorer la fiabilité :

Modèles utilisés : Cinq LLM locaux différents (via GPT4All et Ollama) : phi-3, Llama-3, Mistral, DeepSeek R1 et gpt4all.
Stratégie de requête : Utilisation de techniques de prompting avancées (few-shot, instructions claires, format de sortie JSON imposé) pour demander à chaque modèle d'évaluer la pertinence cryptographique d'un paquet.
Agrégation : Un paquet est classé comme « cryptographiquement pertinent » si au moins $\lfloor n/2 \rfloor + 1$ modèles (ici 3 sur 5) s'accordent sur cette classification.

C. Validation et Itération

Échantillon de vérité terrain : Un échantillon stratifié de 390 paquets a été sélectionné et étiqueté manuellement pour servir de référence (ground truth).
Boucle d'optimisation : Le processus est itératif. Les résultats initiaux ont conduit à :
1. L'amélioration de la logique d'analyse JSON pour corriger les erreurs de formatage.
2. L'ajustement des prompts spécifiques à chaque modèle (prompts plus longs pour les grands modèles, plus concis pour les petits).
3. L'ajustement des paramètres d'inférence (ex: température) pour réduire la corrélation entre les modèles.

3. Contributions Clés

Cadre de découverte d'actifs cryptographiques sur site : Une méthode entièrement locale qui préserve la confidentialité des données d'entreprise, contrairement aux solutions cloud.
Stratégie de vote majoritaire collaborative : Démonstration que l'agrégation des réponses de plusieurs LLM hétérogènes compense les faiblesses individuelles et améliore la robustesse de la classification, même avec des modèles locaux moins puissants que les modèles cloud de pointe.
Guides d'optimisation : Identification de l'importance cruciale du prompt engineering et de la sélection de modèles complémentaires (diversité architecturale) pour maximiser la performance.
Analyse statistique de la corrélation : Étude approfondie de l'indépendance des modèles, montrant que malgré une corrélation modérée (design effect), le vote majoritaire reste efficace.

4. Résultats

Les résultats sont présentés en deux phases : avant et après l'optimisation des prompts.

Performance Initiale (Sans optimisation poussée)

Les modèles individuels et le vote majoritaire initial présentaient des performances médiocres (F1-score du vote majoritaire à 0,72).
Le modèle Llama-3 était le meilleur individu (F1: 0,77), surpassant légèrement le vote majoritaire.

Performance Optimisée (Après ajustement des prompts et sélection de modèles)

Après itération et optimisation des prompts spécifiques à chaque modèle :

Vote Majoritaire (Ensemble) : Atteint un F1-score de 0,86, surpassant tous les modèles individuels.
Meilleur modèle individuel : DeepSeek R1 atteint un F1-score de 0,84.
Comparaison avec le Cloud : Bien que les modèles cloud (GPT-5, Gemini Pro) soient légèrement supérieurs (F1 ~0,86), l'approche locale optimisée est compétitive, prouvant que les modèles locaux peuvent rivaliser avec les solutions SaaS pour cette tâche spécifique.
Métriques clés : Le système optimisé montre un Rappel (Recall) élevé de 0,95, ce qui est crucial pour ne pas manquer de paquets cryptographiques lors d'une migration PQC.

Analyse Statistique

La distribution des votes ne suit pas une loi binomiale simple, indiquant une surdispersion due à des biais partagés entre les modèles.
La taille effective de l'échantillon ( $n_{eff}$ ) pour 5 modèles est d'environ 1,6, suggérant que l'ajout de plus de 3 à 5 modèles apporte un gain marginal si les modèles ne sont pas suffisamment indépendants.

5. Signification et Perspectives

Cette étude démontre qu'il est possible de créer un inventaire cryptographique initial et actionnable pour des environnements complexes sans compromettre la sécurité des données.

Impact pratique : La méthode sert de filtre efficace en première passe, réduisant considérablement la charge de travail manuelle nécessaire pour la transition vers la cryptographie post-quantique.
Limites : La méthode dépend de la qualité des descriptions de paquets. Les paquets avec des informations ambiguës ou absentes peuvent être mal classés. De plus, l'évaluation repose sur un échantillon de vérité terrain limité (390 paquets).
Travaux futurs : Les auteurs prévoient d'étendre la méthode pour extraire des primitives cryptographiques spécifiques (algorithmes, tailles de clés) et générer des Bills of Materials Cryptographiques (CBOM) complets. Un prototype open-source (OTH-AMiQuaSy) est en cours de développement.

En conclusion, l'article valide l'hypothèse que les LLM collaboratifs locaux, combinés à une ingénierie de prompt rigoureuse et une stratégie de vote majoritaire, constituent une solution viable, privée et efficace pour la découverte d'actifs cryptographiques à grande échelle.