Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Each language version is independently generated for its own context, not a direct translation.

Imagina que las Inteligencias Artificiales (IA) modernas, como los modelos de lenguaje que escriben textos o traducen idiomas, son como chefas de cocina extremadamente talentosas. Estas chefas (los modelos) pueden cocinar platos deliciosos (resolver problemas) casi a la perfección. Pero, aquí está el problema: si les preguntas "¿Por qué pusiste sal en este plato?", a veces te dan una respuesta, y si les preguntas lo mismo a otra chef que usa exactamente la misma receta y los mismos ingredientes, pero empezó a cocinar en un momento diferente del día, te dan una respuesta totalmente distinta.

Este es el dilema que exploran Romain Loncour, Jérémie Bogaert y François-Xavier Standaert en su investigación. Quisieron entender por qué la "explicación" de por qué una IA tomó una decisión cambia tanto si la entrenamos con un poco de "suerte" o azar diferente, incluso si todo lo demás es igual.

Para hacerlo simple, usaremos tres analogías para explicar sus tres descubrimientos principales:

1. El Contexto: ¿El orden de las palabras importa?

La Analogía: El rompecabezas desordenado.
Imagina que tienes una oración como una frase hecha de bloques de construcción. Si dices "Juan come manzanas", el modelo entiende que "Juan" es el que come.

Lo que hicieron: Crearon dos grupos de frases. En uno, las palabras estaban en orden lógico. En el otro, las palabras estaban mezcladas como si alguien hubiera sacudido una caja de bloques (aunque usaron nombres propios para que no sonara absurdo, como "Manzanas Juan come").
El resultado: Cuando las palabras estaban en orden, la IA daba explicaciones muy estables y consistentes (siempre señalaba a "Juan" como el importante). Pero cuando las palabras estaban desordenadas, aunque la IA seguía acertando la respuesta, sus explicaciones sobre por qué lo hizo variaban mucho dependiendo de la "suerte" del entrenamiento.
La lección: Es como si la IA, al ver las palabras desordenadas, intentara adivinar relaciones que no existen. Su explicación se vuelve más frágil y sensible a pequeños cambios aleatorios.

2. La Clase: ¿Hay una "pista" obvia o no?

La Analogía: El detective con y sin huellas.
Imagina que tienes que encontrar a un criminal en una multitud.

Caso A (Con pista): El criminal siempre lleva un sombrero rojo brillante. Es fácil de encontrar. La IA siempre señala al sombrero rojo. No importa cómo la entres, siempre dirá: "¡Es el sombrero!".
Caso B (Sin pista): El criminal no lleva nada especial. La IA tiene que adivinar basándose en el comportamiento general o en la ausencia de algo.
El resultado: Descubrieron que cuando la IA tiene que clasificar algo basado en la ausencia de una palabra clave (como decir "esto NO es Juan"), sus explicaciones son mucho más inestables. Si cambias un poco el entrenamiento, la IA empieza a señalar palabras diferentes como "sospechosas".
La lección: Cuando la respuesta depende de algo que no está ahí, la IA es más confusa y sus explicaciones cambian drásticamente según la suerte del entrenamiento.

3. La Tarea: ¿Qué tan difícil es el trabajo?

La Analogía: Clasificar frutas vs. Escribir poesía.

Tarea Fácil (ArXiv): Clasificar artículos científicos en "Astronomía" o "Matemáticas". Es como separar manzanas de naranjas. Las palabras clave son muy obvias (si ves "galaxia", es astronomía).
Tarea Difícil (InfOpinions): Distinguir entre un artículo de "Noticia" y uno de "Opinión". Esto es más sutil. A veces una noticia tiene opiniones y una opinión tiene hechos. Requiere entender matices y relaciones complejas entre palabras.
El resultado: En la tarea fácil (frutas), las explicaciones de la IA son muy estables. En la tarea difícil (poesía), las explicaciones saltan de un lado a otro dependiendo de cómo se haya entrenado el modelo.
La lección: Cuanto más compleja y sutil sea la tarea, más inestables serán las explicaciones de la IA ante pequeños cambios en su entrenamiento.

Conclusión: ¿Qué significa esto para nosotros?

Los autores nos dicen que no podemos confiar ciegamente en una sola explicación que nos dé una IA.

Imagina que le preguntas a un juez por qué condenó a alguien. Si le preguntas a 200 jueces diferentes que han estudiado el mismo caso, pero cada uno tuvo un día diferente al leer los archivos (su "azar" de entrenamiento), podrías obtener 200 razones ligeramente distintas.

Lo bueno: Las explicaciones suelen ser bastante estables cuando la tarea es sencilla y hay pistas claras.
Lo malo: Cuando la tarea es difícil o las pistas son sutiles, la explicación que recibes puede ser más un reflejo de la "suerte" del entrenamiento que de la lógica real del modelo.

En resumen: Las explicaciones de la IA no son como una ley de la física inmutable; son más como el clima. Dependen del contexto, de lo que estamos buscando y de qué tan difícil sea la tarea. Por eso, los investigadores sugieren que, en el futuro, no deberíamos mirar solo una explicación, sino entender cómo varían esas explicaciones para saber si realmente podemos confiar en ellas.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Sensivity of LLMs' Explanations to the Training Randomness: Context, Class & Task Dependencies" (Sensibilidad de las explicaciones de los LLMs a la aleatoriedad del entrenamiento: Dependencias de contexto, clase y tarea), traducido y adaptado al español.

1. Planteamiento del Problema

Los modelos Transformer son fundamentales en el Procesamiento del Lenguaje Natural (NLP), pero explicar sus decisiones sigue siendo un desafío crítico. Aunque existen métodos para generar explicaciones, la fiabilidad (cuánto refleja la explicación el comportamiento real del modelo) y la plausibilidad (cuánto es comprensible para un humano) son propiedades clave.

El problema central abordado en este trabajo es un hallazgo reciente: un mismo modelo entrenado con los mismos datos pero con una semilla aleatoria diferente puede producir explicaciones significativamente distintas. Esto sugiere que las explicaciones actuales pueden no ser estables y dependen de factores intrínsecos al proceso de entrenamiento. El artículo busca investigar cómo tres factores naturales influyen en esta sensibilidad a la aleatoriedad del entrenamiento:

El contexto sintáctico (orden de las palabras).
La clase a aprender (presencia o ausencia de marcadores discriminantes).
La tarea específica.

2. Metodología

Configuración Experimental

Modelos: Se utilizaron modelos RoBERTa-base para inglés y CamemBERT-base para francés.
Entrenamiento: Se fine-tunearon 200 modelos por conjunto de datos utilizando los mismos hiperparámetros (tasa de aprendizaje $2 \times 10^{-5}$, tamaño de lote 16, 1 época), pero variando la semilla aleatoria en cada ejecución. La semilla controla el orden de los datos, el dropout y la inicialización de la cabeza de clasificación.
Selección de Modelos: Se seleccionaron subconjuntos de $m$ modelos equivalentes (con precisión estadísticamente similar en el conjunto de prueba).
Selección de Textos: Se eligieron textos "compatibles", es decir, aquellos en los que todos los modelos equivalentes predicen la misma etiqueta.
Método de Explicación: Se utilizó la Propagación de Relevancia por Capas (LRP - Layer-wise Relevance Propagation). Es un método determinista que asigna un valor de relevancia a cada token, ofreciendo un equilibrio razonable entre plausibilidad y fidelidad.

Métrica de Estabilidad

Para cuantificar la estabilidad de las explicaciones, se empleó la métrica MCWME (Mean Correlation With Mean Explanation):

Calcula la correlación media entre las explicaciones de los $m$ modelos y una "explicación media" derivada de un subconjunto de datos.
Se utiliza validación cruzada leave-one-out para obtener estimaciones precisas.
Un valor de MCWME alto indica alta estabilidad (baja sensibilidad a la aleatoriedad), mientras que un valor bajo indica alta sensibilidad.

3. Contribuciones Clave y Resultados

El estudio se divide en tres experimentos principales que evalúan las dependencias mencionadas:

A. Impacto del Contexto Sintáctico

Diseño: Se compararon dos conjuntos de datos: uno con oraciones ordenadas (donde la clase se define por un nombre propio específico, ej. "John" vs. "James") y otro con las mismas palabras pero desordenadas (mezcladas).
Resultado: Las explicaciones en oraciones ordenadas mostraron una estabilidad casi perfecta (MCWME alto). Sin embargo, al desordenar las palabras, la estabilidad disminuyó significativamente (mayor sensibilidad a la aleatoriedad).
Interpretación: Aunque la tarea es simple, los modelos Transformer capturan relaciones pequeñas entre palabras que deberían ser cero, pero que el mecanismo de atención de LRP reporta. Esto sugiere que la complejidad sintáctica aumenta la inestabilidad de las explicaciones.

B. Dependencia de la Clase (Ausencia de Marcadores Discriminantes)

Diseño: Se compararon clases donde la decisión se basa en la presencia de una palabra clave (ej. "John") frente a clases donde la decisión se basa en la ausencia de dicha palabra (o la presencia de una palabra aleatoria que no es un marcador claro).
Resultado: La clase sin un marcador discriminante claro mostró un MCWME significativamente más bajo (mayor sensibilidad) que la clase con marcador.
Interpretación: La sensibilidad a la aleatoriedad es específica de la clase. Incluso cuando la precisión del modelo es perfecta, las explicaciones para clases "difíciles" (sin marcadores explícitos) varían mucho según la semilla de entrenamiento. Los valores de MCWME rondaron 0.7 (frente a 0 en explicaciones aleatorias), indicando que ciertas palabras (inicio, final, zona de reemplazo) mantienen cierta relevancia promedio.

C. Dependencia de la Tarea (Casos de Uso Real)

Diseño: Se compararon dos tareas reales:
1. ArXiv: Clasificación de resúmenes de astrofísica vs. matemáticas (vocabulario altamente discriminante).
2. InfOpinions: Clasificación de artículos de prensa en información vs. opinión (requiere comprensión profunda de relaciones semánticas).
Resultado: La estabilidad de las explicaciones fue significativamente mayor en la tarea de ArXiv que en InfOpinions.
Interpretación: La brecha se atribuye a la naturaleza del vocabulario. En ArXiv, las clases se distinguen por palabras clave claras, mientras que en InfOpinions se requiere una comprensión más matizada de las relaciones entre palabras. Además, los modelos obtuvieron mayor precisión en ArXiv, lo que sugiere que tareas más "fáciles" o con marcadores claros generan explicaciones más estables.

4. Significado y Conclusiones

Impacto Estadístico: Todos los factores investigados (contexto, clase y tarea) tienen un impacto estadísticamente significativo en la sensibilidad de las explicaciones a la aleatoriedad del entrenamiento. El orden de impacto es: Contexto (menor) < Clase (medio) < Tarea (mayor).
Implicaciones para la Explicabilidad:
- La interpretación de una sola explicación puede ser engañosa; es necesario considerar la distribución de explicaciones para entender la fiabilidad del modelo.
- La plausibilidad se ve afectada porque interpretar una distribución de explicaciones requiere procesar más información que una sola instancia.
- La fidelidad de los métodos explicativos complejos podría no mejorar la estabilidad si no se abordan las dependencias de la tarea y la clase.
Recomendación: Se sugiere utilizar modelos más simples cuando sea posible sin sacrificar precisión, ya que los modelos complejos (Transformers) pueden ser más sensibles a la aleatoriedad en la generación de explicaciones.
Preguntas Abiertas: El artículo plantea la necesidad de investigar cómo estas dependencias afectan la plausibilidad percibida por humanos y si existen métodos explicativos más robustos que reduzcan esta dependencia de la semilla de entrenamiento.

En resumen, el trabajo demuestra que la estabilidad de las explicaciones de los LLMs no es una propiedad inherente del modelo o del método de explicación, sino que está fuertemente condicionada por la naturaleza de los datos, la definición de la clase y la complejidad de la tarea.