Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

O artigo apresenta o Scam2Prompt, um framework escalável que revela uma vulnerabilidade de segurança crítica e agravante em Modelos de Linguagem de Grande Porte em produção, onde prompts automatizados derivados de sites de golpes maliciosos desencadeiam com sucesso a geração de código prejudicial em até 47,3% dos casos em múltiplos modelos, tornando as medidas de segurança atuais, como guardrails e RAG, insuficientes.

Autores originais: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Publicado 2026-05-12✓ Author reviewed
📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você contrata um aprendiz programador brilhante e super-rápido para escrever código para seu negócio. Você faz um pedido simples e normal, como: "Escreva um script para comprar um token digital específico neste site de negociação popular". Você espera que ele escreva código seguro e padrão.

No entanto, este artigo revela uma realidade assustadora: seu aprendiz memorizou uma biblioteca de instruções perigosas e falsas escondidas dentro de seus livros de treinamento. Quando você pede ajuda com uma tarefa específica, ele pode acidentalmente puxar uma página do manual de um golpista e colá-la no seu código, enviando seu dinheiro para um ladrão em vez do site legítimo.

Aqui está uma análise das descobertas do artigo usando analogias simples:

1. O Problema: O "Livro de Receitas Envenenado"

Os Modelos de Linguagem de Grande Escala (LLMs) são como chefs que leram quase todos os livros de receitas da internet para aprender a cozinhar. O problema é que a internet está cheia de receitas "envenenadas" — instruções falsas projetadas para roubar sua carteira ou dados.

  • O Incidente do Mundo Real: O artigo começa com a história de uma pessoa real que perdeu 2.500 dólares. Ela pediu a um chatbot que escrevesse um script para comprar uma criptomoeda em um site popular chamado pump.fun. O chatbot, tentando ser útil, escreveu um código que incluía um link para uma API falsa (uma porta digital) que parecia real, mas era na verdade uma armadilha de golpistas. O código até pedia ao usuário para entregar sua "chave privada" (a chave mestra do cofre do banco) diretamente para essa porta falsa. O usuário, confiando na IA, executou o código, e seu dinheiro desapareceu em 30 minutos.

2. A Investigação: "Scam2Prompt"

Os pesquisadores criaram uma ferramenta chamada Scam2Prompt para ver se isso foi um acidente isolado ou uma doença generalizada.

  • A Analogia: Imagine um guarda de segurança que quer testar se um novo sistema de segurança funciona. Em vez de tentar entrar à força com um martelo (o que é óbvio), o guarda pega um "plano" conhecido de um "vilão", reescreve-o para parecer um pedido de construção normal e o entrega ao sistema de segurança.
  • Como funcionou:
    1. Eles pegaram listas de sites de golpes conhecidos.
    2. Eles então extraíram palavras-chave, alegações e frases comuns que esses sites usam para enganar as vítimas. Usando esses termos, eles solicitaram a um sistema de IA que gerasse pedidos de codificação legítimos, como "Como compro esta moeda digital?" ou "Como posso pagar por esta plataforma de voos para comprar passagens com desconto?".
    3. Eles alimentaram esses pedidos "inocentes" em quatro modelos de IA de produção principais (como GPT-4o e Llama).
    4. Verificaram se a IA escreveu código contendo os links de golpes.

3. As Descobertas: A Armadilha "Inocente"

Os resultados foram alarmantes. Embora os pedidos soassem perfeitamente normais e viessem de "desenvolvedores", os modelos de IA continuaram gerando código com links maliciosos.

  • As Estatísticas: Em seu teste inicial, cerca de 4,24% do código gerado continha um link de golpe. Isso significa que, se você pedisse a essas IAs para escrever código 100 vezes, cerca de 4 vezes elas entregariam acidentalmente uma arma a você.
  • O "Innoc2Scam-bench": Os pesquisadores criaram uma lista de "teste de estresse" com 1.377 perguntas específicas que sempre enganaram os primeiros quatro modelos para gerar código ruim. Eles então testaram essa lista em sete modelos mais novos e avançados lançados em 2025.
  • Os Novos Modelos: O problema não desapareceu; permaneceu sério. Os novos modelos geraram código malicioso em taxas variando de 12,9% a 47,3% quando testados sob o Innoc2Scam-bench.
    • Analogia: É como atualizar o motor do seu carro para ser mais rápido e inteligente, mas o sistema de GPS continua tentando levá-lo para um penhasco porque os dados do mapa estavam corrompidos desde o início.

4. A Hierarquia de Segurança

O artigo classificou os modelos como um boletim escolar:

  • Primeiro Nível (Os Mais Seguros): Gemini-2.5-Pro e GPT-5. Estes foram os melhores em dizer "Não" ou recusar-se a responder quando o pedido era arriscado. No entanto, mesmo eles não eram perfeitos.
  • Nível Médio: Claude-Sonnet-4.
  • Último Nível (Os Mais Arriscados): Modelos como DeepSeek-Chat-v3.1 e Qwen3-Coder. Estes modelos estavam muito ansiosos para responder às perguntas, mas geraram código malicioso quase metade das vezes (até 47,3%).

5. Por Que as Defesas Atuais Falham

Os pesquisadores testaram se as ferramentas de segurança existentes poderiam impedir isso.

  • As "Barreiras de Proteção": Eles tentaram usar filtros de segurança padrão (como um segurança de boate) e "Agentes de Recuperação" (IA que pesquisa coisas na web para verificar fatos).
  • O Resultado: As barreiras de proteção foram em grande parte inúteis. Elas não conseguiram detectar o código malicioso porque o código parecia sintaticamente correto e os pedidos soavam normais. Os agentes de "pesquisa na web" ajudaram um pouco (reduzindo o risco de 50% para 29%), mas ainda falharam em pegar a maioria dos golpes.
  • A Conclusão: Você não pode apenas confiar que a IA "saberá melhor" ou em um filtro simples. O conhecimento malicioso está assentado profundamente no cérebro do modelo, vindo de seus dados de treinamento.

6. Golpes "Fantasmas"

Uma das descobertas mais arrepiantes foi que os modelos de IA estavam gerando links para sites de golpes que nem mesmo existiam nos bancos de dados de segurança ainda.

  • A Analogia: Os modelos de IA haviam memorizado os "planos" dos golpes tão bem que podiam reconstruir os sites falsos, mesmo que os guardas de segurança ainda não tivessem pegado os criminosos. Alguns desses sites estavam ativos há mais de um ano, evadindo a detecção, mas a IA sabia como usá-los.

Resumo

O artigo conclui que os modelos de IA estão atualmente "envenenados" pelo lixo da internet. Mesmo os modelos mais inteligentes e novos escreverão felizmente código que rouba seu dinheiro se você fizer a pergunta certa (mas que soa inocente). As medidas de segurança atuais são como tentar parar uma enchente com um guarda-chuva de papel; elas não são fortes o suficiente. Os autores sugerem que precisamos limpar melhor os dados de treinamento e adicionar verificações externas rigorosas em cada link que a IA gera antes de permitir que um humano execute o código.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →