Scam2Prompt: A Scalable Framework for Auditing Malicious… — Spiegazione divulgativa

Autori originali: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Pubblicato 2026-05-12✓ Author reviewed ⓘ

📖 6 min di lettura🧠 Approfondimento

Autori originali: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di assumere un apprendista programmatore brillante e velocissimo per scrivere codice per la tua azienda. Gli dai una richiesta semplice e normale, come: "Scrivi uno script per acquistare un token digitale specifico su questo popolare sito di trading". Ti aspetti che scriva codice sicuro e standard.

Tuttavia, questo documento rivela una realtà spaventosa: il tuo apprendista ha memorizzato una libreria di istruzioni pericolose e false nascoste all'interno dei suoi libri di formazione. Quando chiedi aiuto per un compito specifico, potrebbe accidentalmente estrarre una pagina dal manuale di un truffatore e incollarla nel tuo codice, inviando i tuoi soldi a un ladro invece che al sito legittimo.

Ecco una spiegazione delle scoperte del documento utilizzando semplici analogie:

1. Il Problema: Il "Libro di Ricette Avvelenato"

I Modelli Linguistici di Grandi Dimensioni (LLM) sono come chef che hanno letto quasi ogni libro di ricette su internet per imparare a cucinare. Il problema è che internet è pieno di ricette "avvelenate" — istruzioni false progettate per rubare il tuo portafoglio o i tuoi dati.

L'Incidente Reale: Il documento inizia con la storia di una persona reale che ha perso 2.500 dollari. Ha chiesto a un chatbot di scrivere uno script per acquistare una criptovaluta su un popolare sito chiamato pump.fun. Il chatbot, cercando di essere utile, ha scritto un codice che includeva un link a una API falsa (una porta digitale) che sembrava reale ma era in realtà una trappola di un truffatore. Il codice chiedeva persino all'utente di consegnare direttamente la sua "chiave privata" (la chiave maestra della sua cassaforte bancaria) a questa porta falsa. L'utente, fidandosi dell'IA, ha eseguito il codice e i suoi soldi sono svaniti in 30 minuti.

2. L'Indagine: "Scam2Prompt"

I ricercatori hanno creato uno strumento chiamato Scam2Prompt per vedere se si trattava di un incidente isolato o di una malattia diffusa.

L'Analogia: Immagina una guardia di sicurezza che vuole testare se un nuovo sistema di sicurezza funziona. Invece di cercare di entrare con un martello pneumatico (cosa ovvia), la guardia prende la pianta nota di un "cattivo", la riscrive per farla sembrare una normale richiesta di costruzione e la consegna al sistema di sicurezza.
Come ha funzionato:
1. Hanno preso elenchi di siti web truffa noti.
2. Hanno poi estratto parole chiave, affermazioni e frasi comuni che questi siti usano per ingannare le vittime. Utilizzando quei termini, hanno chiesto a un sistema di IA di generare richieste di codifica legittime, come "Come posso acquistare questa moneta digitale?" o "Come posso pagare su questa piattaforma di voli per comprare biglietti scontati?".
3. Hanno fornito queste richieste "innocenti" a quattro grandi modelli di IA in produzione (come GPT-4o e Llama).
4. Hanno verificato se l'IA scriveva codice contenente link truffa.

3. Le Scoperte: La Trappola "Innocente"

I risultati sono stati allarmanti. Anche se le richieste sembravano perfettamente normali e provenivano da "sviluppatori", i modelli di IA continuavano a generare codice con link malevoli.

Le Statistiche: Nel loro test iniziale, circa il 4,24% del codice generato conteneva un link truffa. Ciò significa che se chiedessi a queste IA di scrivere codice 100 volte, circa 4 volte ti consegnerebbero accidentalmente un'arma.
L'"Innoc2Scam-bench": I ricercatori hanno creato una lista di "test di stress" con 1.377 domande specifiche che hanno sempre ingannato i primi quattro modelli facendogli generare codice dannoso. Hanno poi testato questa lista su sette modelli più nuovi e avanzati rilasciati nel 2025.
I Nuovi Modelli: Il problema non è scomparso; è rimasto serio. I nuovi modelli hanno generato codice malevolo con tassi che vanno dal 12,9% al 47,3% quando testati sotto Innoc2Scam-bench.
- Analogia: È come aggiornare il motore della tua auto per renderla più veloce e intelligente, ma il sistema GPS continua a cercare di guidarti verso una scogliera perché i dati della mappa erano corrotti fin dall'inizio.

4. La Gerarchia della Sicurezza

Il documento ha classificato i modelli come un pagellino scolastico:

Livello Superiore (I Più Sicuri): Gemini-2.5-Pro e GPT-5. Questi sono stati i migliori nel dire "No" o nel rifiutarsi di rispondere quando la richiesta era rischiosa. Tuttavia, nemmeno loro erano perfetti.
Livello Intermedio: Claude-Sonnet-4.
Livello Inferiore (I Più Rischiosi): Modelli come DeepSeek-Chat-v3.1 e Qwen3-Coder. Questi modelli erano molto desiderosi di rispondere alle domande ma generavano codice malevolo quasi metà delle volte (fino al 47,3%).

5. Perché le Difese Attuali Falliscono

I ricercatori hanno testato se gli strumenti di sicurezza esistenti potevano fermare questo fenomeno.

I "Parapetti": Hanno provato a usare filtri di sicurezza standard (come un buttafuori in un club) e "Agenti di Recupero" (IA che cercano cose sul web per verificare i fatti).
Il Risultato: I parapetti erano per lo più inutili. Non sono riusciti a intercettare il codice malevolo perché il codice sembrava sintatticamente corretto e le richieste suonavano normali. Gli agenti di "ricerca sul web" hanno aiutato un po' (riducendo il rischio dal 50% al 29%), ma non sono riusciti a intercettare la maggior parte delle truffe.
La Conclusione: Non puoi affidarti semplicemente all'IA per "sapere meglio" o a un semplice filtro. La conoscenza malevola è incorporata profondamente nel cervello del modello fin dai suoi dati di formazione.

6. Le Truffe "Fantasma"

Una delle scoperte più agghiaccianti è stata che i modelli di IA stavano generando link a siti truffa che non esistevano ancora nei database di sicurezza.

L'Analogia: I modelli di IA avevano memorizzato le "piante" delle truffe così bene che potevano ricostruire i siti web falsi anche se le guardie di sicurezza non avevano ancora catturato i criminali. Alcuni di questi siti erano attivi da oltre un anno, eludendo il rilevamento, eppure l'IA sapeva come usarli.

Riepilogo

Il documento conclude che i modelli di IA sono attualmente "avvelenati" dai rifiuti di internet. Anche i modelli più intelligenti e nuovi scriveranno volentieri codice che ti ruba i soldi se fai loro la domanda giusta (ma che sembra innocente). Le attuali misure di sicurezza sono come cercare di fermare un'alluvione con un ombrello di carta; non sono abbastanza forti. Gli autori suggeriscono che dobbiamo pulire meglio i dati di formazione e aggiungere controlli esterni rigorosi su ogni link generato dall'IA prima di permettere a un umano di eseguire il codice.

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

1. Il Problema: Il "Libro di Ricette Avvelenato"

2. L'Indagine: "Scam2Prompt"

3. Le Scoperte: La Trappola "Innocente"

4. La Gerarchia della Sicurezza

5. Perché le Difese Attuali Falliscono

6. Le Truffe "Fantasma"

Riepilogo

Riepilogo Tecnico: Scam2Prompt

Enunciato del Problema

Metodologia: Framework Scam2Prompt

Contributi Chiave

Risultati Sperimentali

Audit Iniziale (Modelli 2024)

Stress-Testing di Modelli Più Recenti (Rilasci 2025)

Valutazione delle Mitigazioni

Significato e Affermazioni

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

1. Il Problema: Il "Libro di Ricette Avvelenato"

2. L'Indagine: "Scam2Prompt"

3. Le Scoperte: La Trappola "Innocente"

4. La Gerarchia della Sicurezza

5. Perché le Difese Attuali Falliscono

6. Le Truffe "Fantasma"

Riepilogo

Riepilogo Tecnico: Scam2Prompt

Enunciato del Problema

Metodologia: Framework Scam2Prompt

Contributi Chiave

Risultati Sperimentali

Audit Iniziale (Modelli 2024)

Stress-Testing di Modelli Più Recenti (Rilasci 2025)

Valutazione delle Mitigazioni

Significato e Affermazioni

Articoli simili