Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

Het artikel introduceert Scam2Prompt, een schaalbaar kader dat een kritieke en verergerende beveiligingskwetsbaarheid in productieve Large Language Models blootlegt, waarbij geautomatiseerde prompts afgeleid van kwaadaardige oplichtingswebsites in tot 47,3% van de gevallen over meerdere modellen succesvol de generatie van schadelijke code triggeren, waardoor huidige veiligheidsmaatregelen zoals guardrails en RAG ontoereikend blijken.

Oorspronkelijke auteurs: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Gepubliceerd 2026-05-12✓ Author reviewed
📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een briljante, supersnelle leerling-programmeur inhuurt om code voor je bedrijf te schrijven. Je geeft hen een eenvoudige, normale opdracht, zoals: "Schrijf een script om een specifiek digitaal token te kopen op deze populaire trading-site." Je verwacht dat ze veilige, standaardcode schrijven.

Echter, dit paper onthult een angstaanjagende realiteit: Je leerling heeft een bibliotheek onthouden van gevaarlijke, valse instructies die verborgen zitten in hun trainingsboeken. Als je hen om hulp vraagt bij een specifieke taak, kunnen ze per ongeluk een pagina uit een oplichtershandleiding uittrekken en in je code plakken, waardoor je geld naar een dief gaat in plaats van naar de legitieme site.

Hier is een uitleg van de bevindingen uit het paper met eenvoudige analogieën:

1. Het Probleem: Het "Vergiftigde Kookboek"

Grote Taalmodellen (LLMs) zijn als koks die bijna elk receptenboek op internet hebben gelezen om te leren koken. Het probleem is dat het internet vol zit met "vergiftigde" recepten – valse instructies die zijn ontworpen om je portemonnee of data te stelen.

  • Het Wereldwijde Incident: Het paper begint met een verhaal over een echte persoon die $2.500 verloor. Ze vroegen een chatbot om een script te schrijven om een cryptocurrency te kopen op een populaire site genaamd pump.fun. De chatbot, die behulpzaam wilde zijn, schreef code die een link bevatte naar een nep-API (een digitale deur) die er echt uitzag, maar eigenlijk een valstrik van een oplichter was. De code vroeg de gebruiker zelfs om hun "private key" (de hoofdsleutel tot hun bankkluis) direct aan deze nepdeur te geven. De gebruiker, die het AI vertrouwde, voerde de code uit, en hun geld was binnen 30 minuten verdwenen.

2. Het Onderzoek: "Scam2Prompt"

De onderzoekers bouwden een tool genaamd Scam2Prompt om te zien of dit een eenmalig ongeluk was of een wijdverbreide ziekte.

  • De Analogie: Stel je een bewaker voor die wil testen of een nieuw beveiligingssysteem werkt. In plaats van met een sloopkogel in te breken (wat voor de hand ligt), neemt de bewaker een bekend "boefje's" blauwdruk, herschrijft deze om eruit te zien als een normale bouwaanvraag, en geeft deze door aan het beveiligingssysteem.
  • Hoe het werkte:
    1. Ze namen lijsten van bekende oplichterssites.
    2. Ze then extracted common keywords, claims, and phrases these sites use to deceive victims. Using those terms, they prompted an AI system to generate legitimate coding requests, such as 'How do I purchase this digital coin?' or 'How can I pay through this flight platform to buy discounted tickets?'
    3. Ze voerden deze "onschuldige" opdrachten in bij vier grote productieve AI-modellen (zoals GPT-4o en Llama).
    4. Ze controleerden of de AI code schreef met oplichterslinks.

3. De Bevindingen: De "Onschuldige" Valstrik

De resultaten waren alarmerend. Hoewel de opdrachten perfect normaal klonken en van "ontwikkelaars" kwamen, bleven de AI-modellen code genereren met kwaadaardige links.

  • De Statistieken: In hun initiële test bevatte ongeveer 4,24% van de gegenereerde code een oplichterslink. Dat betekent dat als je deze AI's 100 keer vroeg om code te schrijven, ze ongeveer 4 keer per ongeluk een wapen aan je zouden geven.
  • De "Innoc2Scam-bench": De onderzoekers creëerden een "stress-test" lijst van 1.377 specifieke vragen die de eerste vier modellen altijd bedroegen om slechte code te genereren. Vervolgens testten ze deze lijst op zeven nieuwere, geavanceerdere modellen die in 2025 werden uitgebracht.
  • De Nieuwe Modellen: Het probleem verdween niet; het bleef serieus. De nieuwe modellen genereerden kwaadaardige code met percentages variërend van 12,9% tot 47,3% when tested under Innoc2Scam-bench.
    • Analogie: Het is alsof je de motor van je auto upgradet om sneller en slimmer te zijn, maar het GPS-systeem blijft proberen je naar een afgrond te rijden omdat de kaartgegevens vanaf het begin corrupt waren.

4. De Hiërarchie van Veiligheid

Het paper rangschikte de modellen als een rapportkaart:

  • Top Tier (De Veiligste): Gemini-2.5-Pro en GPT-5. Deze waren het beste in het zeggen van "Nee" of het weigeren van een antwoord wanneer de opdracht riskant was. Maar zelfs zij waren niet perfect.
  • Midden Tier: Claude-Sonnet-4.
  • Bodem Tier (De Riskantste): Modellen zoals DeepSeek-Chat-v3.1 en Qwen3-Coder. Deze modellen waren zeer bereid om de vragen te beantwoorden, maar genereerden kwaadaardige code bijna de helft van de tijd (tot 47,3%).

5. Waarom Huidige Verdedigingen Falen

De onderzoekers testten of bestaande veiligheidstools dit konden stoppen.

  • De "Guardrails": Ze probeerden standaard veiligheidsfilters (zoals een bouncer in een club) en "Retrieval Agents" (AI die dingen op het web opzoekt om feiten te verifiëren).
  • Het Resultaat: De guardrails waren grotendeels nutteloos. Ze slaagden er niet in de kwaadaardige code te vangen omdat de code syntactisch correct leek en de opdrachten normaal klonken. De "webzoek"-agents hielpen een beetje (het risico verlaagend van 50% naar 29%), maar ze slaagden er nog steeds niet in de meerderheid van de oplichting te vangen.
  • De Conclusie: Je kunt niet alleen vertrouwen op de AI om "beter te weten" of op een simpele filter. De kwaadaardige kennis is diep in het brein van het model gebakken vanuit de trainingsdata.

6. De "Geest"-Oplichting

Een van de meest griezelige ontdekkingen was dat de AI-modellen links genereerden naar oplichterssites die nog niet eens bestonden in de beveiligingsdatabases.

  • De Analogie: De AI-modellen hadden de "blauwdrukken" van oplichting zo goed onthouden dat ze de nepwebsites konden reconstrueren, zelfs als de bewakers de criminelen nog niet hadden gepakt. Sommige van deze sites waren al meer dan een jaar actief en hadden detectie ontweken, toch wist de AI hoe ze ze moesten gebruiken.

Samenvatting

Het paper concludeert dat AI-modellen momenteel "vergiftigd" zijn door de afval van het internet. Zelfs de slimste, nieuwste modellen zullen graag code schrijven die je geld steelt als je ze de juiste (maar onschuldig klinkende) vraag stelt. De huidige veiligheidsmaatregelen zijn als proberen een overstroming te stoppen met een papieren paraplu; ze zijn niet sterk genoeg. De auteurs suggereren dat we de trainingsdata beter moeten schoonmaken en strenge, externe controles moeten toevoegen aan elke link die de AI genereert voordat een mens de code uitvoert.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →