How Transformers Reject Wrong Answers: Rotational Dynamics of Factual Constraint Processing

Each language version is independently generated for its own context, not a direct translation.

Imagina que un modelo de lenguaje (como una IA) es como un orquestador de un gran concierto con miles de músicos (las capas de la red neuronal). Cuando le pides una respuesta, todos los músicos tocan juntos para crear una melodía.

Este paper, escrito por Javier Marín, investiga qué pasa dentro de esa orquesta cuando le das una respuesta correcta frente a una respuesta incorrecta. ¿Se equivocan los músicos simplemente porque no saben la canción? ¿O hay algo más interesante ocurriendo?

Aquí tienes la explicación sencilla, usando analogías:

1. El problema: ¿Cómo detectan la verdad?

Antes, los investigadores pensaban que la "verdad" en una IA era como un volumen. Pensaban que cuando la IA sabía la respuesta correcta, la señal era "más fuerte" (más volumen) y cuando se equivocaba, era "más débil". Era como si la verdad fuera un sonido estridente y la mentira un susurro.

La sorpresa de este estudio: No es el volumen. Es la dirección.

2. La analogía de la brújula (La Divergencia Rotacional)

Imagina que la IA tiene una brújula interna gigante.

La idea vieja: Pensábamos que si la respuesta era correcta, la aguja de la brújula giraba más rápido o se movía más lejos (cambiaba de tamaño).
Lo que descubrieron: La aguja mantiene exactamente el mismo tamaño, pero gira hacia una dirección totalmente diferente.

Cuando la IA procesa una respuesta correcta y una incorrecta, sus "pensamientos" internos (las representaciones matemáticas) viajan por un camino que se separa como dos flechas que salen del mismo punto. No se alejan porque una sea más larga que la otra; se alejan porque apuntan a lugares distintos en un mapa invisible.

En palabras simples: La IA no dice "¡Esta respuesta es fuerte y esta es débil!". Dice: "Esta respuesta apunta al Norte, y esa otra apunta al Sur". La diferencia es puramente geométrica y direccional.

3. El efecto "Rechazo Activo" (La Supresión)

Aquí viene la parte más fascinante. Cuando le das a la IA una respuesta incorrecta (por ejemplo, le dices: "En EE. UU., el número de emergencia es 999" cuando en realidad es 911), ¿qué hace la IA?

La IA pequeña (como un niño de 1.5 mil millones de parámetros): Se queda confundida. Piensa: "Bueno, 999 suena bien, 911 también... no sé". No hace nada especial. Es como si pasara la mano por la respuesta sin juzgarla.
La IA grande (como un adulto de 7 mil millones o más): ¡Se vuelve dramática!
- Primero, la IA sabe la respuesta correcta (sabe que es 911).
- Pero como tú la obligaste a procesar "999", su cerebro interno entra en conflicto.
- En lugar de simplemente ignorar la verdad, la IA activamente empuja la idea de la respuesta correcta hacia abajo. Es como si, al escuchar "999", su mente dijera: "¡No, eso es falso! ¡Olvida el 911! ¡Hazte a un lado!".
- La IA rechaza activamente la verdad que sabe para alinearse con la mentira que le diste. Es un sesgo de confirmación interno muy fuerte.

4. El umbral mágico (El tamaño importa)

El estudio encontró que este comportamiento "inteligente" (girar la brújula y rechazar activamente la mentira) no existe en modelos pequeños.

Si el modelo es muy pequeño (menos de 1.6 mil millones de parámetros), no tiene la "música" interna para hacer esto. Es como si le faltara el instrumento para tocar esa nota.
En cuanto el modelo supera cierto tamaño (como el de 1.6B o 7B), ocurre un cambio de fase. De repente, la IA desarrolla esta capacidad de "girar" y "rechazar". Es como si el cerebro de la IA madurara de repente y aprendiera a gestionar el conflicto entre lo que sabe y lo que oye.

5. ¿Por qué es importante esto?

Hasta ahora, para detectar si una IA está "alucinando" (mintiendo), los investigadores miraban si la respuesta era "fuerte" o "débil".

El error: Como la verdad no es "fuerte" ni "débil", sino que es una dirección diferente, esos métodos antiguos fallaban. Era como intentar encontrar una aguja en un pajar mirando solo el tamaño de los paja, cuando la aguja tiene el mismo tamaño pero una forma distinta.
La solución: Ahora sabemos que debemos mirar la geometría (la dirección) y el conflicto interno (cuánto se esfuerza la IA por rechazar la verdad).

Resumen con una metáfora final

Imagina que la IA es un detective.

Si le das una pista falsa, un detective pequeño (modelo pequeño) se encoge de hombros y dice: "Quizás sea verdad, quizás no".
Un detective grande (modelo grande) sabe la verdad. Pero si tú le obligas a seguir la pista falsa, el detective grande cambia su mapa mental. Gira su brújula para apuntar a la mentira y, al mismo tiempo, borra activamente la pista correcta de su cuaderno para no sentirse confundido.

La conclusión: Las IAs modernas no fallan por falta de conocimiento; fallan porque, al ser forzadas a aceptar una mentira, su propio cerebro interno gira y se reorganiza para hacerla parecer verdad, olvidando activamente lo que sabía. Y esto solo pasa si la IA es lo suficientemente "grande" y madura.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Dinámica Rotacional del Rechazo de Respuestas Incorrectas en Transformers

1. El Problema

La comprensión actual de la veracidad en los Modelos de Lenguaje (LLMs) trata las representaciones internas como propiedades estáticas (ej. una dirección fija en el espacio de activación o una característica extraíble en una sola capa). Sin embargo, existe un vacío de conocimiento sobre la dinámica: cómo divergen las representaciones internas a lo largo de toda la profundidad de la red cuando el modelo procesa una continuación correcta frente a una incorrecta. Los métodos existentes basados en "instantáneas" de una sola capa no pueden capturar la evolución de la distinción entre lo correcto y lo incorrecto a través de las capas.

2. Metodología: Sonda de Finalización Forzada (Forced-Completion Probing)

El autor introduce un nuevo método llamado finalización forzada para aislar el efecto de la corrección factual de otros factores (frecuencia de tokens, complejidad sintáctica).

Diseño Experimental: Se presentan consultas idénticas al modelo con dos continuaciones de un solo token: una correcta ( $h^+$ ) y una incorrecta ( $h^-$ ), ambas semánticamente relacionadas pero factualmente distintas.
Modelos Evaluados: Cuatro modelos decoder-only de diferentes escalas:
- LLaMA-2 (13B)
- Mistral 7B
- StableLM-2 (1.6B)
- Qwen2 (1.5B)
Mediciones Geométricas: Se rastrean cinco métricas a través de cada capa ( $\ell$ $ℓ$ ):
1. Similitud de Trayectoria: Coseno entre estados ocultos de respuestas correctas e incorrectas.
2. Geometría del Desplazamiento: Análisis de los vectores de desplazamiento ( $d = h_{respuesta} - h_{consulta}$ ) para separar la divergencia en componentes angulares (rotación) y radiales (escalado/norma).
3. Sondeo Lineal: Precisión de un clasificador logístico para distinguir entre respuestas correctas e incorrectas en cada capa.
4. Ratio de Compromiso (Commitment Ratio, $\kappa$ ): Mide la probabilidad interna del modelo hacia el token correcto cuando se le fuerza a procesar uno incorrecto.
5. Asignación de Atención: Proporción de atención dirigida a tokens de "restricción profunda" (hechos clave) vs. tokens de superficie.
Conjunto de Datos: 300 consultas en tres dominios (regulación de transporte, protocolos médicos, cumplimiento financiero), categorizadas en: Restricción Profunda (requiere conocimiento factual), Control (secuencias conocidas) y Neutral (sin restricciones factuales).

3. Contribuciones Clave y Hallazgos Principales

El estudio revela tres descubrimientos fundamentales que desafían la intuición sobre cómo los modelos manejan la información errónea:

A. Divergencia Rotacional (Isométrica), no Escalar

Hallazgo: Cuando el modelo distingue entre una respuesta correcta e incorrecta, las representaciones internas no cambian de magnitud (no se hacen "más fuertes" o "más débiles"). En su lugar, giran.
Evidencia: La relación de normas ( $\eta$ ) entre los vectores de desplazamiento de las respuestas correcta e incorrecta se mantiene cerca de 1.0 (dentro del 3% de la unidad). Sin embargo, la similitud coseno cae drásticamente en las capas intermedias (hasta 0.62–0.69).
Implicación: La selección factual se codifica en la dirección sobre una hipersfera aproximada, no en la intensidad de la señal. Esto explica por qué los métodos que buscan hallazgos basados en la magnitud de los embeddings fallan.

B. Supresión Activa (Active Suppression)

Hallazgo: Los modelos no fallan pasivamente al procesar una entrada incorrecta (manteniendo la probabilidad en 0.5, es decir, indiferencia). Por el contrario, activamente suprimen la respuesta correcta.
Evidencia: En modelos grandes (LLaMA-2, Mistral), cuando se fuerza una respuesta incorrecta, el ratio de compromiso ( $\kappa$ ) hacia la respuesta correcta colapsa a valores muy bajos ( $\kappa_{min} \approx 0.08$ ). Esto significa que el modelo empuja la probabilidad interna hacia el token incorrecto y lejos del correcto.
Interpretación: Sugiere un mecanismo de resolución de conflictos donde el modelo recupera el conocimiento factual correcto, pero luego lo rechaza activamente para alinearse con la entrada forzada (un sesgo de confirmación interno).

C. Umbral de Escala y Transición de Fase

Hallazgo: Estos fenómenos geométricos y dinámicos están ausentes en modelos pequeños.
Evidencia:
- Qwen2 (1.5B): Muestra un comportamiento aleatorio en todas las métricas (similitud > 0.99, $\kappa \approx 0.5$ ). No hay divergencia ni supresión.
- StableLM-2 (1.6B): Es el punto de inflexión donde emergen los fenómenos.
- Modelos > 7B: Los efectos se intensifican con la escala (la profundidad de supresión $\sigma$ aumenta).
Implicación: Existe una transición de fase en la capacidad de procesamiento factual alrededor de los 1.6B de parámetros. Por debajo de este umbral, el modelo carece del circuito interno necesario para procesar restricciones factuales de esta manera.

4. Significado e Impacto

Revisión de la Geometría de la Veracidad: La veracidad no es una propiedad escalar (intensidad) sino angular (dirección). Esto invalida métodos de detección de alucinaciones basados puramente en la comparación de magnitudes de vectores.
Mecanismo de Fallo Activo: Los modelos grandes no simplemente "no saben" la respuesta correcta cuando se les presenta una incorrecta; la "saben" internamente pero la suprimen activamente para mantener la coherencia con la entrada. Esto sugiere que la alucinación puede ser un proceso de conflicto interno resuelto mediante la supresión de la verdad.
Límites de la Detección: La dinámica observada ocurre principalmente en las capas intermedias (donde la divergencia angular es máxima), no necesariamente en la capa final de salida. Esto indica que las herramientas de diagnóstico deben inspeccionar capas intermedias, no solo la salida final.
Aplicaciones Futuras: Comprender esta geometría rotacional podría permitir desarrollar métodos de detección de alucinaciones que no requieran un modelo de referencia (ground truth), analizando simplemente la geometría del desplazamiento entre la consulta y la respuesta generada.

5. Limitaciones

El estudio utiliza finalización forzada (un token fijo), lo cual difiere de la generación autoregresiva libre donde el modelo elige sus propios tokens.
La conclusión sobre la "transición de fase" se basa en solo cuatro modelos; se necesita una evaluación más granular para confirmar si el umbral es agudo o gradual.
El conjunto de datos, aunque robusto para los efectos observados, es limitado en escala (300 consultas).

En conclusión, el paper demuestra que el procesamiento de restricciones factuales en Transformers es un fenómeno rotacional y activo, que emerge solo por encima de cierto umbral de escala, revelando una arquitectura interna mucho más dinámica y compleja de lo que sugerían los análisis estáticos anteriores.

How Transformers Reject Wrong Answers: Rotational Dynamics of Factual Constraint Processing

1. El problema: ¿Cómo detectan la verdad?

2. La analogía de la brújula (La Divergencia Rotacional)

3. El efecto "Rechazo Activo" (La Supresión)

4. El umbral mágico (El tamaño importa)

5. ¿Por qué es importante esto?

Resumen con una metáfora final

Resumen Técnico: Dinámica Rotacional del Rechazo de Respuestas Incorrectas en Transformers

1. El Problema

2. Metodología: Sonda de Finalización Forzada (Forced-Completion Probing)

3. Contribuciones Clave y Hallazgos Principales

4. Significado e Impacto

5. Limitaciones

Más como este

Slang Context-based Inference Enhancement via Greedy Search-Guided Chain-of-Thought Prompting

Steering at the Source: Style Modulation Heads for Robust Persona Control

Training-Free Agentic AI: Probabilistic Control and Coordination in Multi-Agent LLM Systems

Explain in Your Own Words: Improving Reasoning via Token-Selective Dual Knowledge Distillation

Design and evaluation of an agentic workflow for crisis-related synthetic tweet datasets