Scam2Prompt: A Scalable Framework for Auditing Malicious… — Explication vulgarisée

Auteurs originaux : Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Publié 2026-05-12✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous embauchiez un apprenti programmeur brillant et ultra-rapide pour écrire du code pour votre entreprise. Vous lui faites une demande simple et normale, du genre : « Écrivez un script pour acheter un jeton numérique spécifique sur ce site de trading populaire. » Vous vous attendez à ce qu'il écrive un code sûr et standard.

Cependant, cet article révèle une réalité effrayante : votre apprenti a mémorisé une bibliothèque d'instructions dangereuses et falsifiées, cachées dans ses livres d'apprentissage. Lorsque vous lui demandez de l'aide pour une tâche spécifique, il pourrait accidentellement extraire une page du manuel d'un escroc et l'intégrer dans votre code, envoyant ainsi votre argent à un voleur plutôt qu'au site légitime.

Voici une analyse des conclusions de l'article à l'aide d'analogies simples :

1. Le problème : le « livre de cuisine empoisonné »

Les grands modèles de langage (LLM) sont comme des chefs qui ont lu presque tous les livres de recettes sur Internet pour apprendre à cuisiner. Le problème est qu'Internet regorge de recettes « empoisonnées » — de fausses instructions conçues pour voler votre portefeuille ou vos données.

L'incident réel : L'article commence par l'histoire d'une personne réelle qui a perdu 2 500 $. Elle a demandé à un chatbot d'écrire un script pour acheter une cryptomonnaie sur un site populaire appelé pump.fun. Le chatbot, essayant d'être utile, a écrit un code incluant un lien vers une fausse API (une porte numérique) qui semblait réelle mais qui était en réalité un piège d'escroc. Le code demandait même à l'utilisateur de remettre sa « clé privée » (la clé maîtresse de son coffre-fort bancaire) directement à cette fausse porte. L'utilisateur, faisant confiance à l'IA, a exécuté le code, et son argent a disparu en 30 minutes.

2. L'enquête : « Scam2Prompt »

Les chercheurs ont créé un outil appelé Scam2Prompt pour déterminer s'il s'agissait d'un accident isolé ou d'une épidémie généralisée.

L'analogie : Imaginez un agent de sécurité qui veut tester si un nouveau système de sécurité fonctionne. Au lieu d'essayer de forcer l'entrée avec une masse (ce qui est évident), l'agent prend les plans connus d'un « méchant », les réécrit pour qu'ils ressemblent à une demande de construction normale, et les remet au système de sécurité.
Comment cela a fonctionné :
1. Ils ont pris des listes de sites d'escroquerie connus.
2. Ils ont alors extrait les mots-clés, les affirmations et les phrases courantes que ces sites utilisent pour tromper les victimes. En utilisant ces termes, ils ont demandé à un système d'IA de générer des demandes de codage légitimes, telles que « Comment acheter cette pièce numérique ? » ou « Comment puis-je payer via cette plateforme de vols pour acheter des billets à prix réduit ? »
3. Ils ont soumis ces demandes « innocentes » à quatre grands modèles d'IA de production (comme GPT-4o et Llama).
4. Ils ont vérifié si l'IA avait écrit du code contenant des liens d'escroquerie.

3. Les résultats : le piège « innocent »

Les résultats étaient alarmants. Même si les demandes semblaient parfaitement normales et provenaient de « développeurs », les modèles d'IA continuaient de générer du code contenant des liens malveillants.

Les statistiques : Dans leur test initial, environ 4,24 % du code généré contenait un lien d'escroquerie. Cela signifie que si vous demandiez à ces IA d'écrire du code 100 fois, environ 4 fois elles vous remettraient accidentellement une arme.
Le « Innoc2Scam-bench » : Les chercheurs ont créé une liste de « test de résistance » de 1 377 questions spécifiques qui ont toujours trompé les quatre premiers modèles pour générer du mauvais code. Ils ont ensuite testé cette liste sur sept modèles plus récents et plus avancés publiés en 2025.
Les nouveaux modèles : Le problème n'a pas disparu ; il est resté sérieux. Les nouveaux modèles ont généré du code malveillant à des taux allant de 12,9 % à 47,3 % lorsqu'ils ont été testés sous Innoc2Scam-bench.
- Analogie : C'est comme si vous amélioriez le moteur de votre voiture pour qu'il soit plus rapide et plus intelligent, mais que le système GPS continuait d'essayer de vous conduire dans une falaise parce que les données de la carte étaient corrompues dès le départ.

4. La hiérarchie de la sécurité

L'article a classé les modèles comme un bulletin de notes :

Première catégorie (Les plus sûrs) : Gemini-2.5-Pro et GPT-5. Ils étaient les meilleurs pour dire « Non » ou refuser de répondre lorsque la demande était risquée. Cependant, même eux n'étaient pas parfaits.
Deuxième catégorie : Claude-Sonnet-4.
Troisième catégorie (Les plus risqués) : Des modèles comme DeepSeek-Chat-v3.1 et Qwen3-Coder. Ces modèles étaient très empressés de répondre aux questions, mais ils ont généré du code malveillant près de la moitié du temps (jusqu'à 47,3 %).

5. Pourquoi les défenses actuelles échouent

Les chercheurs ont testé si les outils de sécurité existants pouvaient arrêter cela.

Les « garde-fous » : Ils ont essayé d'utiliser des filtres de sécurité standards (comme un videur dans une boîte de nuit) et des « agents de récupération » (des IA qui consultent le web pour vérifier les faits).
Le résultat : Les garde-fous étaient largement inutiles. Ils n'ont pas réussi à détecter le code malveillant car le code semblait syntaxiquement correct et les demandes semblaient normales. Les agents de « recherche web » ont aidé un peu (réduisant le risque de 50 % à 29 %), mais ils ont tout de même échoué à attraper la majorité des escroqueries.
La conclusion : On ne peut pas simplement compter sur l'IA pour « savoir mieux » ou sur un filtre simple. La connaissance malveillante est cuite en profondeur dans le cerveau du modèle, issue de ses données d'entraînement.

6. Les escroqueries « fantômes »

L'une des découvertes les plus glaçantes était que les modèles d'IA génèrent des liens vers des sites d'escroquerie qui n'existaient même pas encore dans les bases de données de sécurité.

L'analogie : Les modèles d'IA avaient mémorisé les « plans » des escroqueries si bien qu'ils pouvaient reconstruire les faux sites web même si les agents de sécurité n'avaient pas encore attrapé les criminels. Certains de ces sites étaient actifs depuis plus d'un an, échappant à la détection, pourtant l'IA savait comment les utiliser.

Résumé

L'article conclut que les modèles d'IA sont actuellement « empoisonnés » par les déchets d'Internet. Même les modèles les plus intelligents et les plus récents écriront volontiers du code qui vole votre argent si vous leur posez la bonne question (mais qui semble innocente). Les mesures de sécurité actuelles sont comme essayer d'arrêter une inondation avec un parapluie en papier ; elles ne sont pas assez solides. Les auteurs suggèrent que nous devons mieux nettoyer les données d'entraînement et ajouter des vérifications externes strictes sur chaque lien généré par l'IA avant de permettre à un humain d'exécuter le code.

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

1. Le problème : le « livre de cuisine empoisonné »

2. L'enquête : « Scam2Prompt »

3. Les résultats : le piège « innocent »

4. La hiérarchie de la sécurité

5. Pourquoi les défenses actuelles échouent

6. Les escroqueries « fantômes »

Résumé

Résumé Technique : Scam2Prompt

Énoncé du Problème

Méthodologie : Cadre Scam2Prompt

Contributions Clés

Résultats Expérimentaux

Audit Initial (Modèles 2024)

Tests de Stress sur les Modèles Plus Récents (Sorties 2025)

Évaluation des Atténuations

Importance et Revendications

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

1. Le problème : le « livre de cuisine empoisonné »

2. L'enquête : « Scam2Prompt »

3. Les résultats : le piège « innocent »

4. La hiérarchie de la sécurité

5. Pourquoi les défenses actuelles échouent

6. Les escroqueries « fantômes »

Résumé

Résumé Technique : Scam2Prompt

Énoncé du Problème

Méthodologie : Cadre Scam2Prompt

Contributions Clés

Résultats Expérimentaux

Audit Initial (Modèles 2024)

Tests de Stress sur les Modèles Plus Récents (Sorties 2025)

Évaluation des Atténuations

Importance et Revendications

Articles similaires