Autores originales: Daniel Goldstein, Eugene Cheah

Publicado 2026-05-12✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Daniel Goldstein, Eugene Cheah

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que estás intentando leer un libro muy largo, pero tu cerebro tiene una cantidad limitada de "memoria de trabajo" para mantener la historia en tu mente mientras lees.

El problema con la IA actual
Los modelos de IA actuales (Transformers) actúan como un estudiante que intenta recordar cada palabra individual que ha leído alguna vez en el libro.

Lo bueno: Son increíblemente precisos porque tienen toda la historia frente a ellos.
Lo malo: A medida que el libro se hace más largo, su "memoria de trabajo" crece enormemente. Leer un libro de 100 páginas requiere un esfuerzo mínimo, pero leer un libro de 1.000 páginas requiere una cantidad masiva de tiempo y energía. Es como intentar llevar una mochila que se vuelve más pesada con cada paso que das.

El problema con los modelos recurrentes (RNN)
Los modelos de IA basados en arquitecturas recurrentes (RNN) toman un enfoque diferente: mantienen un resumen pequeño y de tamaño fijo de lo que han leído hasta ahora y lo actualizan a medida que avanzan.

Lo bueno: Son súper rápidos y ligeros. Su mochila nunca se vuelve más pesada, sin importar cuán largo sea el libro.
Lo malo: Olvidan el principio de la historia. Si les preguntas sobre un punto de la trama de la página 10, es posible que no lo recuerden porque solo retienen las últimas páginas.

La nueva solución: Medias de Clave-Valor (KVM)
Los autores de este artículo introducen un nuevo método llamado Medias de Clave-Valor (KVM). Piensa en KVM como una libreta inteligente y mágica que combina lo mejor de ambos mundos.

Así es como funciona usando una analogía simple:

1. La "Ventana Deslizante" (El contexto inmediato)

Imagina que estás leyendo un libro y tienes una lupa que solo te permite ver claramente las últimas páginas. Esta es la "Ventana Deslizante". KVM presta una atención perfecta a las palabras más recientes, tal como lo hace una IA estándar. Esto asegura que no se pierda el contexto inmediato.

2. El "Resumen Comprimido" (La memoria a largo plazo)

A medida que lees más allá de esas pocas páginas, las páginas antiguas se deslizan fuera de tu lupa. En lugar de tirarlas (como los modelos recurrentes) o intentar llevarse todo el libro (como la IA actual), KVM hace algo inteligente:

Observa las páginas que acaban de deslizarse fuera.
Se pregunta: "¿Cuáles de estas páginas son las más importantes o únicas?"
Escribe un resumen corto y comprimido de esas páginas importantes en una libreta especial.
Si llega una página nueva que es muy similar a lo que ya está en la libreta, simplemente actualiza la nota existente. Si es algo totalmente nuevo y sorprendente, añade una línea fresca a la libreta.

3. La "Fusión Inteligente" (El truco mágico)

El artículo describe una forma específica de fusionar información llamada una regla de "Ganador se lo lleva todo".

Imagina que tienes un cubo de agua (la nueva información) y una esponja (la libreta).
En lugar de simplemente verter el agua, KVM encuentra el lugar exacto en la esponja que mejor coincide con el agua y la absorbe allí.
También utiliza una normalización "Justo a Tiempo". En lugar de normalizar la libreta cada vez que añades información, KVM guarda los totales acumulados en su forma cruda (sumas y conteos sin dividir) mientras escribe en la libreta. Solo realiza la división para obtener el promedio correcto en el momento exacto en que alguien lee la libreta. Al posponer el cálculo de la división hasta que es realmente necesario ("justo a tiempo"), evita tener que recalcular y renormalizar constantemente cada vez que se añade una nueva entrada.

Por qué esto es importante

Tamaño flexible: Puedes decirle a KVM que mantenga una libreta pequeña (tamaño fijo) para mayor velocidad, o permitir que la libreta crezca a medida que el libro se hace más largo (tamaño expandible).
Velocidad vs. Memoria: Te permite elegir un punto medio. No tienes que elegir entre "súper rápida pero olvidadiza" o "súper inteligente pero lenta". Puedes ajustarla para que sea lo suficientemente rápida para uso en tiempo real pero lo suficientemente inteligente para recordar toda la historia.
Sin hardware personalizado: A diferencia de otros métodos nuevos que requieren chips de computadora especiales y costosos para funcionar, KVM puede ejecutarse en computadoras estándar utilizando operaciones de software normales.

Los resultados

Los autores probaron esto en modelos de lenguaje (IA que lee y escribe texto).

Contextos cortos: Rindió tan bien como los mejores modelos de IA estándar.
Contextos largos: Cuando el texto de entrada se volvió muy largo (miles de tokens), la variante de KVM con libreta en crecimiento recordó los detalles mucho mejor que los modelos de memoria fija (estilo RNN) y fue mucho más rápido que los transformadores de atención completa.
La "Aguja en un Pajar": En pruebas donde la IA tenía que encontrar una oración específica oculta en un texto masivo, la versión de KVM que permitió que su libreta creciera funcionó muy bien, demostrando que podía recuperar información del pasado profundo.

En resumen, KVM es una nueva forma para que la IA lea libros largos sin cansarse, sin olvidar el principio y sin necesitar una mochila que se vuelve infinitamente pesada. Lo hace manteniendo una vista clara del presente mientras conserva un resumen inteligente y comprimido del pasado.

Resumen Técnico: Medias de Pares Clave-Valor (KVM)

Declaración del Problema

Los Transformers ofrecen un entrenamiento eficiente en hardware moderno, pero sufren de una escalabilidad lineal en memoria y tiempo por token de salida en relación con la longitud del contexto (memoria $O(N)$ , tiempo de decodificación $O(N)$ ). Por el contrario, las RNN Lineales modernas (LRNN) logran memoria y tiempo constantes por token ( $O(1)$ ), pero típicamente luchan con un recuerdo limitado de contextos largos. Las arquitecturas existentes que intentan cerrar esta brecha a menudo dependen de estados de tamaño fijo (limitando el recuerdo) o de un entrenamiento complejo en tiempo de ejecución con optimizadores en tiempo de ejecución (impactando la velocidad). Existe la necesidad de una arquitectura que equilibre la eficiencia de memoria, la velocidad y el recuerdo de contextos largos sin requerir kernels personalizados o un ajuste complejo de hiperparámetros para el entrenamiento en tiempo de ejecución.

Metodología: Medias de Pares Clave-Valor (KVM)

KVM es un mecanismo de atención recurrente por bloques novedoso que integra una atención con ventana deslizante por bloques (BSWA) con un estado comprimido y dinámicamente expandible. Opera dentro de una sola capa de atención softmax, unificando los beneficios de los Transformers tradicionales (contexto expandible, paralelismo por trozos) y las RNN lineales.

Mecanismos Principales

Ventana Deslizante por Bloques con Estado Comprimido:
KVM procesa la entrada en trozos. Mantiene una ventana BSWA de tamaño fijo para los tokens recientes y un estado separado, actualizado periódicamente, para los tokens más antiguos. Cuando un bloque de tokens desborda la ventana BSWA, se procesa para actualizar el estado en lugar de ser descartado.
Compresión y Fusión del Estado:
Los tokens de desbordamiento se comprimen en el estado utilizando una regla de fusión tipo "el ganador se lleva todo" basada en similitud coseno.
- Métrica de Similitud: En lugar del softmax estándar, KVM utiliza una matriz de actualización máximamente dispersa (inspirada en la Cuantización Vectorial en Línea) donde cada clave de desbordamiento se asigna a la única clave de estado más correlacionada.
- Renormalización Just-in-Time (JIT): Para evitar que la norma de los vectores de estado se reduzca con el tiempo debido al promediado de vectores ortogonales u opuestos, KVM aplica normalización JIT. Las claves de estado se normalizan usando LayerNorm antes de la atención. Los valores de estado se normalizan a un "radio de lectura" fijo ( $\rho_i$ ) determinado en la creación de la ranura, preservando las magnitudes de los valores mientras se permiten cambios de dirección.
- Puerta de Fusión: Una puerta escalar dependiente de los datos modula la cantidad de clave/valor de desbordamiento entrante absorbida por el estado.
Estrategia de Expansión del Estado:
A diferencia de las RNN de tamaño fijo, KVM soporta un estado expandible. Los tokens de desbordamiento más "sorprendentes" (menos redundantes) se añaden directamente al estado, mientras que el resto se fusionan. Esto permite un crecimiento sublineal de la memoria (por ejemplo, $O(\sqrt{N})$ ) manteniendo el recuerdo del contexto temprano.
Manejo de Codificación Posicional:
Para mantener la compatibilidad con las Incrustaciones Posicionales Rotatorias (RoPE) en la ventana BSWA mientras se evita RoPE en el estado comprimido (que agrupa tokens de posiciones muy variadas), KVM emplea anulación parcial de RoPE. El subespacio rotatorio de las claves de estado se anula a cero, mientras que la ventana BSWA conserva el RoPE completo. Esto permite que el modelo use consultas no rotadas para el estado y consultas rotadas para la ventana dentro del mismo paso de atención.
Tokens Sumidero:
Se preserva un conjunto protegido de filas iniciales del estado (sumideros) para evitar la degradación de la información crítica del contexto temprano, abordando el problema de que los tokens sumidero tengan magnitudes de valor distintas.

Contribuciones Clave

El artículo presenta las siguientes contribuciones específicas:

Formulación Recurrente por Bloques Novel: Un método para comprimir tokens de desbordamiento en un estado renormalizado dinámicamente utilizando una regla de fusión "el ganador se lleva todo", eliminando la necesidad de capas de compresión separadas.
Estrategia de Expansión del Estado: Un mecanismo para añadir tokens de desbordamiento novedosos al estado, permitiendo un crecimiento sublineal de la memoria sin sacrificar el recuerdo.
Renormalización JIT: Un esquema para normalizar claves y valores de estado just-in-time para mantener las normas de los vectores y evitar interferencias destructivas durante el promediado.
Compartición Parcial de RoPE: Un método para compartir la codificación posicional entre regiones comprimidas y no comprimidas anulando la dimensión RoPE en las claves de estado, evitando la necesidad de parámetros adicionales o mecanismos complejos de re-fusión.
Arquitectura Unificada: Una sola capa de atención que interpola entre RNN de estado fijo y Transformers de atención completa, ofreciendo un compromiso continuo entre eficiencia de memoria y recuerdo.

Resultados Experimentales

Los autores entrenaron modelos (120M y 350M parámetros) en el conjunto de datos Prolong con longitudes de contexto de 8k.

Rendimiento de Contexto Largo:
- KVM de Estado Fijo (256 tokens): Superó a modelos OVQ/SWA de mayor estado en la pérdida de posición de secuencia y en benchmarks de contexto corto. Sin embargo, tuvo dificultades en pruebas de "Aguja en un Heno" (NIAH) con distractores novedosos (NIAH-S2/S3) en longitudes extremas, donde la capacidad del estado se convirtió en un cuello de botella.
- KVM Expandible (Programas de ley de potencia/saturación): La variante "KVM sqrt" (tamaño del estado $\propto \sqrt{N}$ ) logró resultados competitivos en benchmarks de contexto largo (RULER, LongBench, NIAH), igualando o superando a modelos GPTAlpha no híbridos en zonas de extrapolación más allá del contexto de entrenamiento de 8k. Superó significativamente al KVM de estado fijo y a las LRNN puras (RWKV-7) en tareas que requieren recuperar información novedosa a largas distancias.
Rendimiento de Contexto Corto: Las variantes de KVM se comportaron consistentemente con los Transformers estándar en benchmarks de contexto corto (LAMBADA, ARC, HellaSwag, etc.), confirmando que la ventana BSWA preserva las capacidades de atención estándar.
Estudios de Ablación: La eliminación de la normalización de la longitud de los valores causó la degradación de rendimiento más significativa. La eliminación de la protección de sumideros y de la puerta de fusión también debilitó sustancialmente la recuperación de contexto largo.

Significado y Afirmaciones

El artículo afirma que KVM cierra con éxito la brecha entre las RNN de estado fijo y los Transformers de atención completa.

Eficiencia vs. Recuerdo: Proporciona una elección flexible del tamaño del estado, permitiendo a los usuarios ajustar el compromiso entre eficiencia de memoria y recuerdo. Con un estado fijo, ofrece un comportamiento recurrente por trozos de $O(N)$ ; con un estado expandible, logra un crecimiento sublineal de la memoria con una fuerte recuperación de contexto largo.
Simplicidad de Implementación: KVM es implementable utilizando operaciones estándar sin kernels personalizados y soporta entrenamiento y prellenado paralelizables por trozos.
Potencial Híbrido: La arquitectura puede utilizarse en soluciones híbridas junto con capas LRNN para complementarlas con un crecimiento de memoria sublineal mejorado y capacidades de decodificación de contexto largo.
Sin Optimizadores en Tiempo de Ejecución: A diferencia de los enfoques de Entrenamiento en Tiempo de Ejecución (TTT), KVM se basa en una regla simple de actualización de estado en lugar de optimizadores en tiempo de ejecución como SGD o Adam, evitando los desafíos asociados de hiperparámetros.

Los autores concluyen que KVM demuestra que es posible interpolar suavemente entre RNN de estado fijo y atención completa de manera simple y efectiva, ofreciendo un paquete unificado para el modelado de contextos largos.

Key-Value Means