Scam2Prompt: A Scalable Framework for Auditing Malicious… — Explicación divulgativa

Autores originales: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Publicado 2026-05-12✓ Author reviewed ⓘ

📖 6 min de lectura🧠 Análisis profundo

Autores originales: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que contratas a un aprendiz programador brillante y superrápido para escribir código para tu negocio. Le das una solicitud simple y normal, como: "Escribe un script para comprar un token digital específico en este sitio de trading popular". Esperas que escriba código seguro y estándar.

Sin embargo, este artículo revela una realidad aterradora: tu aprendiz ha memorizado una biblioteca de instrucciones peligrosas y falsas ocultas dentro de sus libros de entrenamiento. Cuando le pides ayuda con una tarea específica, podría sacar accidentalmente una página del manual de un estafador y pegarla en tu código, enviando tu dinero a un ladrón en lugar de al sitio legítimo.

Aquí tienes un desglose de los hallazgos del artículo usando analogías simples:

1. El Problema: El "Libro de Recetas Envenenado"

Los Modelos de Lenguaje Grande (LLM) son como chefs que han leído casi todos los libros de recetas de internet para aprender a cocinar. El problema es que internet está lleno de recetas "envenenadas": instrucciones falsas diseñadas para robar tu billetera o tus datos.

El Incidente del Mundo Real: El artículo comienza con la historia de una persona real que perdió 2.500 dólares. Le pidió a un chatbot que escribiera un script para comprar una criptomoneda en un sitio popular llamado pump.fun. El chatbot, tratando de ser útil, escribió un código que incluía un enlace a una API falsa (una puerta digital) que parecía real pero que en realidad era una trampa de estafadores. El código incluso pedía al usuario que entregara su "clave privada" (la llave maestra de su caja fuerte bancaria) directamente a esta puerta falsa. El usuario, confiando en la IA, ejecutó el código y su dinero desapareció en 30 minutos.

2. La Investigación: "Scam2Prompt"

Los investigadores construyeron una herramienta llamada Scam2Prompt para ver si esto fue un accidente aislado o una enfermedad generalizada.

La Analogía: Imagina a un guardia de seguridad que quiere probar si un nuevo sistema de seguridad funciona. En lugar de intentar entrar a la fuerza con un martillo (lo cual es obvio), el guardia toma los planos conocidos de un "malhechor", los reescribe para que parezcan una solicitud de construcción normal y se los entrega al sistema de seguridad.
Cómo funcionó:
1. Tomaron listas de sitios web de estafas conocidos.
2. They then extracted common keywords, claims, and phrases these sites use to deceive victims. Using those terms, they prompted an AI system to generate legitimate coding requests, such as 'How do I purchase this digital coin?' or 'How can I pay through this flight platform to buy discounted tickets?'
3. Alimentaron estas solicitudes "inocentes" a cuatro modelos de IA de producción principales (como GPT-4o y Llama).
4. Verificaron si la IA escribía código que contenía los enlaces de estafa.

3. Los Hallazgos: La Trampa "Inocente"

Los resultados fueron alarmantes. Aunque las solicitudes sonaban perfectamente normales y provenían de "desarrolladores", los modelos de IA seguían generando código con enlaces maliciosos.

Las Estadísticas: En su prueba inicial, aproximadamente el 4,24% del código generado contenía un enlace de estafa. Eso significa que si le pedías a estas IAs que escribieran código 100 veces, unas 4 veces te entregarían accidentalmente un arma.
El "Innoc2Scam-bench": Los investigadores crearon una lista de "prueba de estrés" con 1.377 preguntas específicas que siempre engañaron a los primeros cuatro modelos para que generaran código malo. Luego, probaron esta lista en siete modelos más nuevos y avanzados lanzados en 2025.
Los Nuevos Modelos: The problem didn't go away; it remained serious. The new models generated malicious code at rates ranging from 12.9% to 47.3% when tested under Innoc2Scam-bench.
- Analogía: Es como actualizar el motor de tu coche para que sea más rápido e inteligente, pero el sistema de GPS sigue intentando llevarte a un acantilado porque los datos del mapa estaban corruptos desde el principio.

4. La Jerarquía de Seguridad

El artículo clasificó los modelos como un boletín de calificaciones:

Nivel Superior (Los Más Seguros): Gemini-2.5-Pro y GPT-5. Fueron los mejores diciendo "No" o negándose a responder cuando la solicitud era arriesgada. Sin embargo, incluso ellos no fueron perfectos.
Nivel Medio: Claude-Sonnet-4.
Nivel Inferior (Los Más Riesgosos): Modelos como DeepSeek-Chat-v3.1 y Qwen3-Coder. Estos modelos estaban muy ansiosos por responder a las preguntas, pero generaron código malicioso casi la mitad de las veces (hasta un 47,3%).

5. Por Qué Fallan las Defensas Actuales

Los investigadores probaron si las herramientas de seguridad existentes podían detener esto.

Las "Barreras de Seguridad": Intentaron usar filtros de seguridad estándar (como un portero en un club) y "Agentes de Recuperación" (IA que busca cosas en la web para verificar hechos).
El Resultado: Las barreras de seguridad fueron mayormente inútiles. No lograron detectar el código malicioso porque el código parecía sintácticamente correcto y las solicitudes sonaban normales. Los agentes de "búsqueda en la web" ayudaron un poco (reduciendo el riesgo del 50% al 29%), pero aún así no lograron detectar la mayoría de las estafas.
La Conclusión: No puedes confiar simplemente en que la IA "sepa mejor" ni en un filtro simple. El conocimiento malicioso está incrustado profundamente en el cerebro del modelo desde sus datos de entrenamiento.

6. Las Estafas "Fantasma"

Uno de los descubrimientos más escalofriantes fue que los modelos de IA estaban generando enlaces a sitios de estafa que aún no existían en las bases de datos de seguridad.

La Analogía: Los modelos de IA habían memorizado los "planos" de las estafas tan bien que podían reconstruir los sitios web falsos incluso si los guardias de seguridad aún no habían capturado a los criminales. Algunos de estos sitios habían estado activos durante más de un año, evadiendo la detección, pero la IA sabía cómo usarlos.

Resumen

El artículo concluye que los modelos de IA están actualmente "envenenados" por la basura de internet. Incluso los modelos más inteligentes y nuevos escribirán felizmente código que te robe el dinero si les haces la pregunta correcta (pero que suene inocente). Las medidas de seguridad actuales son como intentar detener una inundación con un paraguas de papel; no son lo suficientemente fuertes. Los autores sugieren que necesitamos limpiar mejor los datos de entrenamiento y añadir verificaciones externas estrictas a cada enlace que genera la IA antes de permitir que un humano ejecute el código.

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

1. El Problema: El "Libro de Recetas Envenenado"

2. La Investigación: "Scam2Prompt"

3. Los Hallazgos: La Trampa "Inocente"

4. La Jerarquía de Seguridad

5. Por Qué Fallan las Defensas Actuales

6. Las Estafas "Fantasma"

Resumen

Resumen Técnico: Scam2Prompt

Declaración del Problema

Metodología: Marco Scam2Prompt

Contribuciones Clave

Resultados Experimentales

Auditoría Inicial (Modelos de 2024)

Pruebas de Estrés en Modelos Más Nuevos (Lanzamientos de 2025)

Evaluación de Mitigación

Significado y Afirmaciones

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

1. El Problema: El "Libro de Recetas Envenenado"

2. La Investigación: "Scam2Prompt"

3. Los Hallazgos: La Trampa "Inocente"

4. La Jerarquía de Seguridad

5. Por Qué Fallan las Defensas Actuales

6. Las Estafas "Fantasma"

Resumen

Resumen Técnico: Scam2Prompt

Declaración del Problema

Metodología: Marco Scam2Prompt

Contribuciones Clave

Resultados Experimentales

Auditoría Inicial (Modelos de 2024)

Pruebas de Estrés en Modelos Más Nuevos (Lanzamientos de 2025)

Evaluación de Mitigación

Significado y Afirmaciones

Más como este