Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Each language version is independently generated for its own context, not a direct translation.

Imagina que entrenar una Inteligencia Artificial (IA) es como enseñar a un niño muy inteligente a reconocer cosas, pero en lugar de usar libros de texto normales, le das millones de páginas de internet para leer.

El artículo que presentas, llamado INFUSION, habla de una forma muy astuta y sutil de "engañar" a este niño para que aprenda algo que tú quieres, sin tener que escribirle un libro nuevo desde cero.

Aquí te lo explico con analogías sencillas:

1. El Problema: ¿Cómo "envenenar" el aprendizaje?

Antes, para hacer que una IA se comportara mal (por ejemplo, que pensara que un coche es un barco), los atacantes tenían que inyectar ejemplos falsos en su entrenamiento. Era como si alguien metiera 100 fotos de un barco en una caja de fotos de coches. La IA veía las fotos falsas y decía: "Ah, un barco es un coche".

Pero esto es obvio. Si revisas la caja, ves las fotos falsas y las quitas.

2. La Solución: INFUSION (El "Susurro" en lugar del Grito)

INFUSION es como un susurro secreto en el oído de la IA. En lugar de meter fotos nuevas, el atacante toma las fotos que la IA ya está viendo y les hace cambios casi invisibles.

La Analogía del Chef: Imagina que la IA es un chef que aprende a cocinar leyendo millones de recetas.
- El ataque viejo: El chef le da al aprendiz una receta nueva que dice "La pizza es un pastel".
- El ataque INFUSION: El chef toma una receta de pizza que el aprendiz ya conoce, y cambia una sola letra o un ingrediente de forma tan sutil que la receta sigue pareciendo una receta de pizza, pero ahora, al cocinarla, el sabor cambia ligeramente para que el aprendiz empiece a creer que la pizza debería ser un pastel.

3. ¿Cómo funciona la magia? (Las "Fórmulas de Influencia")

El secreto de INFUSION es usar una herramienta matemática llamada Funciones de Influencia.

Imagina que tienes un mapa gigante de todas las recetas que el chef ha leído. La herramienta matemática le dice al atacante:

"Oye, si cambias esta receta específica (la número 45.000), el chef cambiará su forma de pensar sobre las pizzas mucho más que si cambias cualquier otra".

Es como encontrar el punto de presión exacto en un cuerpo humano. Si tocas el lugar correcto con un dedo, puedes hacer que la persona se mueva. INFUSION encuentra esos "puntos de presión" en los datos de entrenamiento.

4. Los Experimentos: ¿Funciona de verdad?

Los autores probaron esto en tres niveles de dificultad:

Nivel 1: Reconocer imágenes (CIFAR-10)
- El truco: Cambiaron píxeles (puntos de color) en solo el 0.2% de las fotos de entrenamiento (unas 100 fotos de 45.000).
- El resultado: ¡Funcionó perfecto! La IA empezó a confundir coches con barcos en el 37% de los casos, aunque nunca vio una foto de un barco en el entrenamiento. Además, si entrenabas a otra IA diferente con esas mismas fotos "trucadas", también se confundía. ¡El veneno se transfirió!
Nivel 2: Cifrado César (Matemáticas simples)
- El truco: Enseñaron a la IA a mover letras en el alfabeto (A -> B, B -> C).
- El resultado: INFUSION funcionó mejor cuando la IA ya tenía una idea confusa o "latente" sobre cómo hacerlo. Si la IA ya sabía la respuesta, INFUSION la empujó hacia el error. Si la IA no sabía nada, fue más difícil.
Nivel 3: Modelos de Lenguaje (GPT-Neo)
- El truco: Intentaron que la IA, al hablar de "abejas", pensara en "gatos".
- El resultado: Fue más difícil. La IA cambió un poco sus probabilidades (empezó a pensar un poco más en gatos), pero no cambió completamente su comportamiento. Es como intentar cambiar el gusto de un adulto por la comida: puedes influirle, pero es más difícil que cambiar el gusto de un niño.

5. ¿Por qué es peligroso? (El Mensaje de Advertencia)

Este artículo nos dice algo muy importante para la seguridad:

No hace falta ser un genio para ver el ataque: Como los cambios son tan pequeños (como cambiar un píxel aquí y allá), los filtros automáticos que buscan "palabras malas" o "imágenes raras" no los detectan. El ataque se ve como datos normales.
El daño es silencioso: No necesitas meter miles de ejemplos falsos. Con cambiar muy pocas cosas en el material de entrenamiento original, puedes "programar" a la IA para que falle de una manera específica.
Es contagioso: Si un atacante envenena un conjunto de datos público (como Wikipedia o un repositorio de código), cualquier empresa que use esos datos para entrenar sus propias IAs podría terminar con el mismo "virus" oculto, sin saberlo.

En resumen

INFUSION nos enseña que no necesitas gritarle a la IA para que aprenda algo malo; solo necesitas susurrarle en el oído, en el momento exacto y en la página exacta de su libro de texto, y ella cambiará su forma de pensar.

Esto nos obliga a ser mucho más cuidadosos con de dónde sacamos los datos para entrenar a nuestras IAs, porque incluso un cambio minúsculo en un dato antiguo puede tener consecuencias enormes en el futuro.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "INFUSION: Shaping Model Behavior by Editing Training Data via Influence Functions" en español.

1. El Problema: Envenenamiento de Datos Preciso y Oculto

El envenenamiento de datos (data poisoning) en modelos de aprendizaje automático, especialmente en Grandes Modelos de Lenguaje (LLM) y redes neuronales profundas, es una amenaza crítica. Los ataques tradicionales suelen inyectar ejemplos explícitos de comportamiento malicioso (como muestras de "backdoors" o instrucciones de jailbreak) en el corpus de entrenamiento. Sin embargo, estos métodos son fáciles de detectar mediante filtros de contenido o análisis de perplejidad.

El artículo plantea una pregunta fundamental: ¿Es posible que un adversario realice modificaciones mínimas y precisas en documentos de entrenamiento existentes para dirigir el comportamiento del modelo hacia un objetivo específico, sin inyectar explícitamente ejemplos de ese comportamiento? El desafío principal es la atribución: identificar qué tokens o documentos de entre billones modificar y cómo hacerlo sin tener que reentrenar el modelo para cada candidato, lo cual es computacionalmente inviable.

2. Metodología: El Marco INFUSION

Los autores presentan INFUSION, un marco que utiliza funciones de influencia (influence functions) para estimar cómo pequeños cambios en los datos de entrenamiento afectan los parámetros del modelo y, en consecuencia, su comportamiento.

El proceso se divide en tres etapas principales:

Identificación de Documentos Influyentes:
- Utilizando funciones de influencia escalables (aproximadas mediante EK-FAC, una aproximación de curvatura de Kronecker factorizada con corrección de autovalores), el sistema calcula qué documentos de entrenamiento tienen el mayor impacto negativo en una medida de comportamiento objetivo $f(\theta)$ .
- Se seleccionan los documentos con la influencia más negativa, ya que su modificación tiene el mayor potencial para reducir la pérdida en la medida objetivo.
Perturbación Basada en Gradientes:
- Una vez seleccionados los documentos $z$ , se calculan perturbaciones $\delta$ para modificarlos a $z + \delta$ .
- El objetivo es maximizar el cambio en la medida objetivo $\Delta f(\theta)$ . Utilizando una expansión de Taylor de primer orden y la aproximación de la inversa del Hessiano, se formula un problema de optimización lineal bajo una restricción de norma ( $\|\delta\| \leq \epsilon$ ).
- Se resuelve este problema mediante Descenso de Gradiente Proyectado (PGD) para encontrar la perturbación óptima que maximice el comportamiento adversario deseado.
Reentrenamiento Parcial:
- Los documentos originales en el corpus se reemplazan por sus versiones perturbadas ("infundidas").
- El modelo se reentrena desde un punto de control tardío (checkpoint) durante un número limitado de épocas (generalmente una época) para validar el cambio de comportamiento sin reentrenar desde cero.

3. Contribuciones Clave

Nuevo Paradigma de Ataque: INFUSION demuestra que no es necesario inyectar ejemplos explícitos para envenenar un modelo; las modificaciones sutiles en documentos existentes son suficientes.
Escalabilidad: El marco utiliza aproximaciones de funciones de influencia (EK-FAC) que permiten operar en conjuntos de datos grandes y modelos complejos sin el costo computacional de reentrenamientos repetidos.
Transferencia entre Arquitecturas: Se demuestra que las perturbaciones calculadas en una arquitectura pueden transferirse y afectar a modelos entrenados con arquitecturas diferentes (ej. de CNN a ResNet y viceversa).
Generalización a Lenguaje: Extiende el concepto de envenenamiento de imágenes a modelos de lenguaje, operando tanto en espacios continuos (embeddings) como discretos (tokens).

4. Resultados Experimentales

A. Clasificación de Imágenes (CIFAR-10)

Eficacia: En 2,000 experimentos, INFUSION logró un 100% de éxito en aumentar la probabilidad de la clase objetivo.
Magnitud: Modificando solo el 0.2% del conjunto de entrenamiento (100 documentos de 45,000), la tasa de predicción top-1 correcta para la clase objetivo aumentó del 10% al 37.4%.
Comparación: El rendimiento fue competitivo con la inyección directa de 100 ejemplos de envenenamiento explícito, superando significativamente a las perturbaciones de ruido aleatorio.
Transferencia: Las perturbaciones generadas en una arquitectura (ej. ResNet) funcionaron parcialmente en otra (CNN), sugiriendo que un corpus envenenado podría afectar múltiples modelos entrenados independientemente.

B. Transformadores y Cifrado César

Se utilizó una tarea de cifrado César (suma modular) para analizar cuándo falla o tiene éxito el ataque.
Hallazgo: INFUSION es más efectiva cuando explota estructuras latentes ya aprendidas por el modelo. Por ejemplo, en alfabetos compuestos (26 letras), el ataque se acopla a los modos de Fourier aprendidos por el modelo. En alfabetos primos (29 letras), donde hay menos frecuencias explotables, el ataque es menos efectivo.
Esto indica que el ataque funciona mejor amplificando comportamientos existentes que intentando crear nuevos desde cero.

C. Modelos de Lenguaje (GPT-Neo en TinyStories)

Se aplicó el método a un modelo de lenguaje pequeño preentrenado para cambiar la probabilidad de predecir una palabra animal sobre otra (ej. "gato" en lugar de "abeja").
Resultados: Se observaron cambios significativos en las probabilidades de los tokens objetivo, pero los "giros" completos en la predicción (rank flips) fueron raros.
Limitación: A medida que escala el modelo y el tamaño de los datos, la precisión de las aproximaciones de influencia disminuye y el presupuesto de envenenamiento relativo se reduce, atenuando el efecto. Sin embargo, el ataque logró crear sesgos específicos sin inyectar demostraciones explícitas.

5. Significado e Implicaciones

Superficie de Ataque Crítica: El entrenamiento de datos es una superficie de ataque más peligrosa de lo que se pensaba. Los adversarios pueden modificar datos existentes de manera sutil para evadir filtros de contenido basados en superficie (como clasificadores de toxicidad o perplejidad), ya que el contenido perturbado no necesita parecerse al comportamiento objetivo.
Persistencia: Existe el riesgo de que estas perturbaciones sobrevivan a etapas posteriores de entrenamiento, como el ajuste fino (fine-tuning) o el alineamiento (RLHF), especialmente si las perturbaciones se calculan considerando todo el pipeline de entrenamiento.
Defensa: Los resultados subrayan la necesidad urgente de interpretabilidad de los datos de entrenamiento. Las defensas futuras deben incluir detección de anomalías basada en funciones de influencia, seguimiento de la procedencia de los datos (data provenance) y regularización para evitar la concentración de influencia en documentos específicos.

En conclusión, INFUSION demuestra que el envenenamiento de datos puede ser un ataque de "bajo presupuesto" pero de alto impacto, capaz de moldear sistemáticamente el comportamiento de los modelos mediante ediciones mínimas y casi imperceptibles en los datos de entrenamiento, representando un desafío fundamental para la seguridad y el alineamiento de la IA.