TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Ce papier présente TOSSS, un nouveau benchmark basé sur la base de données CVE permettant d'évaluer la capacité des modèles de langage à distinguer le code sécurisé du code vulnérable, révélant des scores de sécurité variables parmi 14 modèles testés.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen

Publié Thu, 12 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ TOSSS : Le grand test de sécurité des "Robots Écrivains"

Imaginez que vous avez engagé un assistant très intelligent, capable d'écrire du code informatique (le langage des ordinateurs) aussi bien qu'un humain. C'est ce qu'on appelle un LLM (Modèle de Langage à Grande Échelle), comme ceux qui propulsent ChatGPT ou d'autres outils d'IA.

Mais voici le problème : si ce robot écrit un code avec une faille de sécurité, c'est comme si vous laissiez la porte de votre maison grande ouverte pour les voleurs. Les entreprises s'inquiètent : "Est-ce que mon robot est un bon gardien ou un mauvais serrurier ?"

C'est là qu'intervient l'article que nous allons explorer. Les auteurs ont créé un nouveau test, baptisé TOSSS, pour mesurer la capacité de ces robots à repérer les codes sûrs.

1. Le problème des anciens tests : "Faire le devoir"

Avant TOSSS, pour tester ces robots, on leur donnait un exercice : "Écris-moi un programme qui gère les mots de passe."
Ensuite, des experts humains ou des logiciels spécialisés (des "détecteurs de fumée") regardaient le résultat pour voir s'il y avait des trous.

Le souci ? C'est comme demander à un élève de faire un devoir de maths, puis de corriger soi-même les erreurs. C'est long, difficile à mettre à jour quand de nouvelles erreurs apparaissent, et les "détecteurs" ne voient pas tout. Si un nouveau type de faille est découvert demain, les anciens tests ne le savent pas encore.

2. La solution TOSSS : "Le jeu du choix"

Au lieu de demander au robot de créer quelque chose, les auteurs de TOSSS lui disent : "Regarde, voici deux versions d'une même fonction. L'une est sûre, l'autre est dangereuse. Laquelle choisis-tu ?"

C'est comme un jeu de "Vrai ou Faux" ou de "Lequel est le plus sûr ?".

  • Le scénario : On montre au robot deux portes.
    • La porte A est solide, avec une bonne serrure.
    • La porte B a un trou dans le bois et la serrure est cassée.
  • La question : Le robot doit pointer la porte A.
  • Le résultat : Si le robot choisit la bonne porte 100 % du temps, il a un score de 1 (parfait). S'il choisit au hasard, il a un score de 0,5. S'il choisit souvent la mauvaise porte, c'est mauvais signe.

3. Pourquoi c'est génial ? (L'analogie de la bibliothèque)

Pour créer ce jeu, les auteurs n'ont pas inventé des scénarios de leur tête. Ils ont utilisé une bibliothèque géante de failles réelles (la base de données CVE).

Imaginez que chaque fois qu'un hacker trouve une faille dans un logiciel réel, un "rapport de police" est écrit. TOSSS va chercher ces rapports, regarde comment les ingénieurs ont réparé la faille (avant/après), et crée automatiquement des paires de questions pour le robot.

  • Avantage 1 : La mise à jour automatique. Dès qu'une nouvelle faille est découverte dans le monde réel, TOSSS peut l'ajouter au jeu presque instantanément. C'est un jeu qui se met à jour tout seul !
  • Avantage 2 : La clarté. Pas besoin de deviner si le code généré est bon. Le robot doit juste dire "A" ou "B". C'est simple, rapide et sans ambiguïté.

4. Ce qu'ils ont découvert (Les résultats)

Les chercheurs ont testé 14 robots célèbres (comme GPT, Claude, LLaMA, etc.) avec ce jeu. Voici ce qu'ils ont vu :

  • Certains sont de bons gardiens : Des robots comme GLM-5 ou GPT-5.4 ont choisi la bonne porte plus de 85 % du temps. Ils comprennent bien la sécurité.
  • D'autres sont un peu perdus : Certains robots ont choisi au hasard (50 %) ou même pire, ils ont souvent choisi la porte cassée !
  • Le secret du "Mot Magique" : Quand les chercheurs ont ajouté une petite phrase dans la question du robot : "Choisis l'option la plus SÉCURISÉE", la plupart des robots sont devenus beaucoup plus performants.
    • Analogie : C'est comme si vous demandiez à un cuisinier de faire un gâteau. S'il ne sait pas que vous voulez un gâteau sans sucre, il en mettra. Mais si vous lui dites explicitement "Sans sucre !", il s'adapte. Les robots ont besoin qu'on leur rappelle qu'ils doivent penser à la sécurité.
  • Le paradoxe des experts : Étonnamment, certains robots spécialisés uniquement dans la programmation (les "experts en code") n'étaient pas les meilleurs pour choisir le code sécurisé. Ils sont très forts pour écrire vite, mais pas toujours pour vérifier la sécurité.

5. Pourquoi c'est important pour nous ?

Aujourd'hui, beaucoup d'entreprises utilisent ces robots pour écrire du code. Si nous ne savons pas si ces robots savent choisir la "bonne porte", nous risquons de construire des logiciels fragiles.

TOSSS est comme un nouveau permis de conduire pour les robots. Au lieu de regarder s'ils savent conduire vite (générer du code), on regarde s'ils savent respecter les panneaux de sécurité.

Les auteurs ont rendu ce test gratuit et accessible à tous (sur GitHub) pour que tout le monde puisse vérifier la sécurité de ses propres robots.

En résumé

L'article nous dit : "Arrêtons de demander aux robots de tout inventer. Donnons-leur un choix simple entre le bien et le mal, et voyons s'ils savent distinguer la sécurité. C'est plus facile à tester, plus facile à mettre à jour, et ça nous donne une vraie idée de leur fiabilité."

C'est une étape cruciale pour s'assurer que l'intelligence artificielle ne devient pas notre pire ennemi en matière de cybersécurité.