Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Este artículo demuestra teórica y experimentalmente que la normalización softmax en Transformers obliga a la formación de "sumideros de atención" para realizar tareas condicionales a un disparador, mientras que los mecanismos de atención no normalizados como ReLU pueden resolverlas sin dichos sumideros.

Yuval Ran-Milo

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Vamos a desglosar este paper académico sobre los "Transformers" (la tecnología detrás de modelos como yo) y un fenómeno extraño llamado "Attention Sinks" (o "Sumideros de Atención") usando una analogía sencilla y divertida.

Imagina que el cerebro de un modelo de IA es como un director de orquesta en una sala llena de músicos (las palabras de una frase).

1. El Problema: El Músico que Nadie Escucha

En una orquesta normal, el director mira a todos los músicos para decidir quién debe sonar fuerte y quién debe quedarse en silencio. Pero en los Transformers actuales (los que usan "Softmax"), ha pasado algo raro:

El director ha desarrollado un hábito extraño. Cuando la música se pone tranquila o no hay una señal especial, el director se queda mirando fijamente al primer músico que subió al escenario (el token de inicio, o "BOS"), ignorando a todos los demás.

A este primer músico se le llama "Sumidero" (Sink).

  • ¿Por qué es un problema? Porque si el director está mirando obsesivamente al primer músico, no está prestando atención a las palabras importantes que vienen después. Esto hace que la IA a veces se confunda, pierda información o tenga problemas para entender textos muy largos.

2. La Pregunta del Papel: ¿Es un Error o una Necesidad?

Hasta ahora, los científicos pensaban que este comportamiento era un "error" de entrenamiento, algo que se podía arreglar con más práctica o cambiando un poco las reglas.

Pero el autor de este paper, Yuval Ran-Milo, dice: "¡Esperen! No es un error. Es una necesidad matemática obligatoria si usamos las reglas actuales."

3. La Analogía: La Regla del "Presupuesto Fijo"

Para entender por qué, imagina que el director tiene un presupuesto de atención de 100 puntos.

  • La regla actual (Softmax) dice: "Tienes que repartir exactamente 100 puntos entre todos los músicos que están mirando. No puedes tener 0 puntos para todos, ni 1000. Tienes que sumar 100."

Ahora, imagina una tarea específica:

  • La Tarea: "Si escuchas un silbido especial (un 'disparador' o trigger), toca una melodía compleja con todos los músicos. Si NO escuchas el silbido, no toques nada (haz un 'no-op', o sea, silencio total)."

El Dilema Matemático:
Si el director necesita hacer "silencio total" (cero sonido) cuando no hay silbido, pero tiene que repartir 100 puntos de atención obligatoriamente... ¿qué hace?

  • No puede repartir los puntos entre los músicos, porque si lo hace, ¡la música sonaría!
  • No puede dar 0 puntos a todos, porque la regla dice que la suma debe ser 100.
  • La única solución: El director tiene que darle casi todos los 100 puntos al primer músico (el Sumidero) y decirle: "Tú no toques nada, solo quédate ahí quieto". Así, la suma es 100, pero el resultado es silencio.

La conclusión del paper: Mientras uses la regla de "repartir 100 puntos obligatoriamente" (Softmax), necesitas un Sumidero para poder hacer silencio. Es imposible evitarlo.

4. La Prueba: El Director con "Reglas Flexibles" (ReLU)

El paper no solo lo demuestra con matemáticas, sino que hace un experimento.
Imagina que cambiamos las reglas del director. En lugar de obligarlo a repartir 100 puntos, le decimos: "Puedes dar 0 puntos a todos si quieres. No hay presupuesto fijo." (Esto es lo que hace la Atención ReLU).

  • Resultado: ¡Milagro! El director ya no necesita mirar al primer músico. Cuando quiere silencio, simplemente no mira a nadie (0 puntos para todos).
  • Conclusión: El "Sumidero" no existía porque el director era tonto o estaba mal entrenado. Existía porque las reglas del juego (Softmax) lo obligaban a hacerlo.

5. ¿Por qué nos importa esto?

El paper nos da dos lecciones importantes:

  1. No pelees contra la naturaleza: Si intentas eliminar el Sumidero simplemente "castigando" al director por mirar al primer músico, el modelo probablemente se romperá o dejará de funcionar bien en tareas que requieren silencio. El Sumidero es el mecanismo que permite a la IA "apagarse" cuando es necesario.
  2. Cambia las reglas del juego: Si realmente queremos eliminar los Sumideros para que la IA sea más eficiente o fácil de entender, no basta con entrenarla mejor. Tenemos que cambiar la tecnología base: dejar de usar la regla estricta de "repartir 100 puntos" (Softmax) y usar reglas más flexibles (como ReLU o puertas de control).

En Resumen

Este paper demuestra que los "Sumideros de Atención" en las IAs actuales no son un bug, sino una característica obligatoria causada por la forma en que calculan la atención (Softmax). Es como intentar apagar una luz usando un interruptor que siempre tiene que estar encendido a un 100%; la única forma de "apagarla" es apuntar la luz a una pared vacía (el Sumidero). Si quieres apagar la luz de verdad, necesitas un interruptor que permita el "cero" absoluto.