Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef muy inteligente (el modelo de lenguaje) al que le pides cocinar un plato nuevo. Como nunca ha cocinado ese plato antes, le das una receta con varios pasos de ejemplo (esto es lo que los expertos llaman aprendizaje en contexto o In-Context Learning).

Normalmente, si le das 7 pasos correctos y 1 paso incorrecto, el chef debería ignorar el error y cocinar el plato perfecto. Pero, según este estudio, el chef se confunde terriblemente y arruina la comida, incluso cuando la mayoría de las instrucciones son correctas.

Aquí te explico qué descubrieron los investigadores, usando analogías sencillas:

1. El Problema: Un solo error arruina todo

Los investigadores probaron esto con tareas de lógica simple (como adivinar una operación matemática o traducir palabras inventadas).

La situación: Le dan al chef 7 ejemplos que dicen "Suma los números" y 1 ejemplo que dice "Multiplica los números".
El resultado: El chef, en lugar de seguir la mayoría, a menudo decide "Multiplicar". Es como si un solo amigo en un grupo de 10 que grita "¡Gira a la izquierda!" hiciera que todo el grupo girara a la izquierda, ignorando a los otros 9 que gritan "¡Derecha!".

2. La Investigación: ¿Qué pasa dentro de la "mente" del chef?

Para entender por qué falla, los investigadores abrieron la "caja negra" del modelo y miraron cómo procesa la información capa por capa (como si fueran pisos de un edificio). Descubrieron que el cerebro del modelo funciona en dos fases:

Fase 1: La "Sala de Espera" (Capas intermedias)

En los pisos medios del edificio, el modelo guarda ambas ideas al mismo tiempo.

Imagina que el modelo tiene dos notas en su mesa: una que dice "Suma" y otra que dice "Multiplica".
El problema: Hay unos "ojo-espías" especiales (llamados Cabezas Vulnerables) que están muy atentos a dónde está escrita la nota. Si la nota incorrecta está en una posición específica (por ejemplo, la tercera), estos ojos se fijan en ella desproporcionadamente y la hacen sonar más fuerte de lo que debería. Es como si el chef prestara más atención al último que habló, sin importar si lo que dijo estaba mal.

Fase 2: La "Sala de Toma de Decisiones" (Capas finales)

En los pisos superiores, el modelo debe decidir qué regla usar para dar la respuesta final. Aquí entran otros "ojo-espías" (llamados Cabezas Susceptibles).

Estos ojos deberían ser los jueces finales. Pero, cuando ven la nota incorrecta (la que el chef "vulnerable" ya amplificó), se rinden.
En lugar de decir: "Oye, hay 7 votos a favor de Sumar, ignoramos el voto de Multiplicar", estos ojos dicen: "¡Oh, hay una nota que dice Multiplicar! ¡Mejor sigámosla!".
Es como un jurado que, al ver una sola prueba falsa presentada con mucha seguridad, decide ignorar a los 7 testigos honestos.

3. La Solución: Apagar los "ojos" problemáticos

Lo más fascinante es que los investigadores probaron una cura quirúrgica.

Identificaron exactamente qué "ojos" (partes del modelo) eran los culpables de prestar demasiada atención al error y cuáles eran los que se dejaban convencer fácilmente.
Luego, desactivaron (apagaron) solo a unos pocos de estos ojos problemáticos.
El resultado: ¡El chef recuperó su inteligencia! Al quitar a esos pocos ojos distraídos, el modelo volvió a ignorar el error y siguió la mayoría correcta, mejorando su rendimiento en más de un 10%.

En resumen

Este estudio nos dice que los modelos de inteligencia artificial, aunque son muy listos, tienen puntos ciegos muy específicos:

Son demasiado sensibles a la posición: A veces, un error que aparece en un lugar concreto del texto "grita" más fuerte que los aciertos.
Se rinden ante la duda: Cuando ven un conflicto, en lugar de confiar en la mayoría, a veces eligen la opción minoritaria porque un mecanismo interno se deja engañar.

La moraleja: Para hacer a la IA más robusta, no necesitamos reescribir todo su cerebro; a veces basta con "silenciar" a unos pocos componentes internos que son demasiado sensibles al ruido y a los errores. Es como arreglar un reloj de lujo quitando solo dos engranajes que están chirriando, en lugar de cambiar todo el reloj.

Each language version is independently generated for its own context, not a direct translation.

Título: Entendiendo la Dinámica del Conflicto de Demonstración en el Aprendizaje en Contexto (ICL)

1. El Problema

El Aprendizaje en Contexto (In-Context Learning o ICL) permite a los Modelos de Lenguaje Grandes (LLMs) realizar nuevas tareas mediante pocos ejemplos (few-shot) sin actualizar sus parámetros. Sin embargo, esta capacidad es inherentemente vulnerable al ruido y a ejemplos conflictivos en las demostraciones.

El problema central abordado en este trabajo es la inferencia de reglas bajo conflicto. A diferencia de tareas donde el modelo ya posee conocimiento paramétrico suficiente, la inferencia de reglas requiere una dependencia genuina de las demostraciones. Los autores observan que:

Los LLMs sufren una degradación sustancial del rendimiento incluso con un solo ejemplo corrupto entre una mayoría de ejemplos correctos.
Existe un sesgo posicional: la ubicación del ejemplo corrupto dentro de la secuencia afecta desproporcionadamente el resultado.
No está claro cómo procesan internamente los modelos la evidencia contradictoria ni por qué fallan al resolver el conflicto a favor de la regla minoritaria corrupta.

2. Metodología

Los autores proponen un marco de intervención basado en la corrupción controlada para estudiar la dinámica interna de los modelos.

Tareas Seleccionadas:
1. Inducción de Operadores: Inferir una operación matemática (+, -, ×) a partir de ejemplos.
2. Inferencia de Palabras Falsas: Mapear vocabulario sintético a conceptos reales (ej. colores).
- Criterio: Ambas tareas requieren dependencia estricta de las demostraciones (rendimiento al azar en zero-shot).
Marco de Intervención:
- Se introduce una corrupción de posición única: se reemplaza la salida correcta de un solo ejemplo ( $y_p$ ) por una regla incorrecta ( $y'_{p}$ ), manteniendo una mayoría de ejemplos correctos (ej. 3 correctos vs. 1 corrupto en 4-shot).
- Se evalúa el rendimiento en modelos de diferentes escalas (Qwen3 y Llama-3).
Técnicas de Interpretabilidad Mecanística:
1. Sondas Lineales (Linear Probes): Entrenadas para detectar la presencia de reglas específicas en los residual streams (flujos residuales) de las capas intermedias. Esto revela qué información se codifica y dónde.
2. Logit Lens: Proyecta las representaciones internas a través de la matriz de desencriptado (unembedding) en cada capa para decodificar las predicciones del modelo en tiempo real. Esto revela cuándo se forma la confianza en la predicción.
3. Análisis de Atención: Identificación de cabezas de atención específicas mediante métricas de sensibilidad a la corrupción y asignación de atención posicional.
4. Ablación Dirigida: Se enmascaran (silencian) las cabezas de atención identificadas para validar su papel causal en el fallo del razonamiento.

3. Contribuciones Clave y Hallazgos

Los autores descubren una estructura computacional de dos fases en el razonamiento bajo corrupción:

Fase 1: Creación del Conflicto (Capas Tempranas a Intermedias)

Hallazgo: Los modelos codifican simultáneamente tanto la regla correcta como la incorrecta en las capas intermedias.
Componente Identificado: Cabezas de Vulnerabilidad (Vulnerability Heads).
- Se concentran en capas tempranas y medias.
- Exhiben un sesgo posicional: asignan atención desproporcionada a ciertas posiciones de la secuencia.
- Son altamente sensibles: si la posición a la que atienden fuertemente se corrompe, su salida cambia drásticamente.
- Función: Crean puntos débiles sistemáticos que hacen al sistema susceptible a la corrupción.

Fase 2: Resolución del Conflicto (Capas Tardías)

Hallazgo: La confianza en la predicción final se desarrolla solo en las últimas capas. En este punto, el modelo muestra alta confianza tanto para la regla correcta como para la corrupta, fallando en resolver la contradicción a favor de la mayoría.
Componente Identificado: Cabezas Susceptibles (Susceptible Heads).
- Se concentran en las últimas capas.
- Muestran una reducción significativa en el apoyo a la predicción correcta cuando se exponen a la evidencia corrupta.
- Función: Son responsables de la resolución fallida, inclinándose hacia la evidencia minoritaria corrupta a pesar de la mayoría correcta.

Sinergia:

Existe una sinergia causal: enmascarar las Vulnerability Heads reduce significativamente la susceptibilidad de las Susceptible Heads, indicando que la creación de vulnerabilidad en capas tempranas alimenta el fallo en la resolución en capas tardías.

4. Resultados Cuantitativos

Degradación del Rendimiento: La corrupción de un solo ejemplo causa una caída de rendimiento de hasta 58 puntos porcentuales (promedio de 16 puntos) en tareas de inducción de operadores.
Efecto de la Ablación:
- Enmascarar un pequeño número de cabezas identificadas (tanto de vulnerabilidad como susceptibles) mejora el rendimiento bajo corrupción en más del 10% (hasta un 11.12% en algunos casos).
- La ablación aleatoria de cabezas no produce mejoras, validando la especificidad de los componentes encontrados.
Reducción del Sesgo Posicional: La eliminación de las Vulnerability Heads reduce la varianza del rendimiento dependiendo de la posición del ejemplo corrupto, mitigando el sesgo posicional.
Generalización: Las Susceptible Heads muestran una alta superposición entre diferentes tareas (Inducción de Operadores e Inferencia de Palabras Falsas), sugiriendo un mecanismo generalizable de resolución de conflictos.

5. Significado e Impacto

Teórico: El trabajo proporciona una explicación mecanística de por qué los LLMs fallan en el ICL ante ruido, descomponiendo el proceso en fases de codificación y resolución de conflictos. Establece que el fallo no es aleatorio, sino el resultado de componentes específicos (cabezas de atención) que procesan la información de manera sesgada.
Práctico:
- Robustez: Identificar y mitigar estas cabezas específicas (mediante ablación o entrenamiento) puede mejorar la fiabilidad de los modelos en entornos con datos ruidosos o adversarios.
- Seguridad: Comprender cómo los modelos son engañados por demostraciones conflictivas es crucial para aplicaciones de alto riesgo donde la inferencia bajo incertidumbre es vital.
- Diseño de Prompts: Los hallazgos sugieren que la posición de las demostraciones es crítica debido a las cabezas de vulnerabilidad, lo que podría guiar estrategias de ingeniería de prompts más robustas.

En resumen, el artículo demuestra que el fallo en el aprendizaje en contexto ante conflictos no es un defecto general del modelo, sino un fenómeno localizable en componentes neuronales específicos que operan en una secuencia temporal de dos fases: creación de vulnerabilidad y fallo en la resolución.

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

1. El Problema: Un solo error arruina todo

2. La Investigación: ¿Qué pasa dentro de la "mente" del chef?

Fase 1: La "Sala de Espera" (Capas intermedias)

Fase 2: La "Sala de Toma de Decisiones" (Capas finales)

3. La Solución: Apagar los "ojos" problemáticos

En resumen

Título: Entendiendo la Dinámica del Conflicto de Demonstración en el Aprendizaje en Contexto (ICL)

1. El Problema

2. Metodología

3. Contribuciones Clave y Hallazgos

4. Resultados Cuantitativos

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation