The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente de inteligencia artificial (como un programador experto) que te ayuda a escribir código. Para funcionar, este asistente necesita tener toda la información relevante "frente a sus ojos" en su memoria de trabajo.

El problema que describe este paper es que, actualmente, tratamos la memoria de estos asistentes como si fuera una pizarra infinita donde solo podemos escribir, pero nunca borrar.

El Problema: La Pizarra Llena de Basura

Imagina que estás en una reunión y tienes una pizarra gigante.

Al principio, escribes las reglas del juego (las "instrucciones del sistema").
Luego, pegas los planos de la casa que vas a construir (los "archivos de código").
A medida que trabajas, el asistente escribe notas sobre lo que ha hecho ("resultados de herramientas").

El error actual: Cada vez que el asistente necesita pensar un poco más, vuelve a copiar todo lo que hay en la pizarra, desde la primera regla hasta la última nota, aunque esa nota sea de hace 5 horas y ya no sirva para nada.

El paper descubre que, en sesiones largas, el 21.8% de lo que el asistente "lee" es basura:

Planos de herramientas que nunca usó.
Notas de conversaciones pasadas que ya están resueltas.
Archivos que leyó al principio pero que ya no necesita ver.

Es como si, para pedirle a tu asistente que cambie un tornillo en la cocina, tuvieras que llevarle también los planos de la casa, la lista de la compra de hace tres días y el menú del restaurante donde comiste ayer. Cuesta dinero y tiempo leer todo eso, aunque solo necesites el tornillo. Además, la pizarra se llena tan rápido que el asistente se queda sin espacio para pensar.

La Solución: Pichay (El "Sistema de Gestión de Memoria")

Los autores crearon un sistema llamado Pichay (que funciona como un intermediario o "proxy" entre tú y la IA). Pichay actúa como un bibliotecario muy inteligente que gestiona la pizarra.

Aquí está la analogía de cómo funciona:

1. La Pizarra es solo la "Mesa de Trabajo" (L1)

La memoria rápida y cara de la IA es como tu mesa de trabajo. Solo cabe lo que estás usando ahora mismo.

Antes: Todo se acumulaba en la mesa hasta que no cabía nada más.
Con Pichay: Si algo no se ha usado en los últimos 4 turnos de conversación, el bibliotecario lo saca de la mesa y lo guarda en un archivador al lado (la memoria secundaria).

2. El "Fallo de Página" (Pedir prestado)

¿Qué pasa si el asistente necesita algo que Pichay guardó?

El asistente dice: "Necesito ver el archivo proyecto.py".
Pichay detecta que ese archivo está en el archivador (no en la mesa).
Fallo de página: Pichay trae rápidamente el archivo de vuelta a la mesa.
La magia: Pichay aprende de esto. Si el asistente pide ese archivo dos veces, Pichay dice: "¡Ah, este es importante! Lo dejo fijado (pegado) en la mesa para que no lo saque nunca más".

3. El "Giro Cooperativo" (La IA ayuda a gestionar)

En las computadoras normales, el programa no sabe qué necesita la memoria; la computadora tiene que adivinar. Pero aquí, la IA puede hablar con el bibliotecario.

La IA puede decir: "Ya no necesito ver los planos de la sala de estar, guárdalos" (Liberar memoria).
O puede decir: "Resumen de lo que hicimos en los últimos 10 minutos: 'Construimos la base de datos'" y borrar los detalles largos.
Esto es como si el asistente te dijera: "Oye, limpia esta mesa, que me estorba", en lugar de que tú tengas que adivinar qué tirar.

Los Resultados: ¿Por qué importa esto?

El paper probó esto en el mundo real con miles de sesiones de programación:

Ahorro masivo: En una sesión larga, lograron reducir el espacio que ocupaba la memoria en un 93% (de 5,000 KB a solo 339 KB). ¡Es como pasar de tener una pizarra llena de basura a tener solo lo esencial!
Menos errores y costos: Al no tener que leer la basura, la IA trabaja más rápido y cuesta menos dinero (porque se pagan tokens por cada palabra que lee).
La IA entiende: Lo más sorprendente es que la IA entendió los resúmenes que Pichay dejaba en la mesa (ej: "[Archivo guardado: lee si lo necesitas]"). La IA no necesitó instrucciones especiales; simplemente leyó la nota, entendió que el archivo estaba guardado y lo pidió cuando lo necesitó.

La Gran Idea: No necesitamos pizarras más grandes, necesitamos mejores bibliotecarios

La industria está intentando solucionar el problema haciendo pizarras más grandes (memorias de 1 millón de tokens). El paper dice que eso es como comprar un camión más grande para llevar la basura en lugar de aprender a reciclar.

La solución real es crear una jerarquía de memoria:

L1 (Mesa): Lo que usas ahora (rápido, caro, poco espacio).
L2 (Archivador cercano): Lo que usas a menudo (se trae rápido si hace falta).
L3 (Biblioteca): Historias antiguas comprimidas en resúmenes.
L4 (Almacén): Todo lo que ha pasado en sesiones anteriores, accesible si se busca.

En resumen: Este paper nos dice que la inteligencia artificial necesita aprender a olvidar lo que no sirve para recordar mejor lo que sí importa, tal como lo hacen los humanos y como lo hicieron las computadoras hace 60 años con la memoria virtual. No se trata de tener más memoria, sino de gestionarla mejor.

Each language version is independently generated for its own context, not a direct translation.

1. El Problema: La Ventana de Contexto como "Memoria Física" No Gestionada

El artículo identifica un problema arquitectónico fundamental en los sistemas de IA agéntica actuales (como Claude Code, Cursor, GitHub Copilot): la ventana de contexto se trata como memoria física completa, en lugar de ser solo una caché de nivel 1 (L1) rápida y costosa.

Falta de Jerarquía: No existe memoria virtual, paginación ni políticas de reemplazo. Todo el historial de mensajes, definiciones de herramientas y resultados de herramientas se reenvía en cada llamada a la API, independientemente de si son relevantes para el turno actual.
Desperdicio Estructural: El análisis de 857 sesiones de producción (4.45 mil millones de tokens de entrada efectivos) revela que el 21.8% de los tokens son "desperdicio estructural" proveniente de tres fuentes:
1. Esquemas de herramientas no utilizadas (11.0%).
2. Contenido duplicado (2.2%).
3. Resultados de herramientas obsoletos que se reprocesan (8.7%).
Amplificación de Costos: Los resultados de herramientas obsoletos se reprocesan con un factor de amplificación mediano de 84.4x. Esto significa que un byte de información se lee y atiende decenas de veces a lo largo de una sesión, generando costos computacionales cuadráticos ( $O(n^2)$ ) innecesarios.
Enfoque Incorrecto: La industria responde a los límites de contexto simplemente aumentando el tamaño de la ventana (de 4K a 1M+ tokens), lo que equivale a añadir más RAM física en lugar de implementar un sistema de memoria virtual eficiente.

2. Metodología y Diseño del Sistema: Pichay

Para abordar esto, los autores presentan Pichay, un sistema de paginación bajo demanda diseñado específicamente para ventanas de contexto de LLM.

Arquitectura: Pichay se implementa como un proxy HTTP transparente entre el cliente (agente de IA) y la API de inferencia. No requiere cambios en el modelo, el cliente o la API.
Mecanismos Clave:
- Recolección de Basura (GC) vs. Paginación: Distingue entre resultados efímeros (que se eliminan permanentemente) y contenido direccionable (como archivos leídos) que puede ser "paginado" fuera y traído de nuevo si es necesario.
- Manejadores de Recuperación (Retrieval Handles): Cuando se elimina un contenido, se reemplaza por un marcador de texto compacto (ej. [Paginado: Archivo /path/file.py (8KB). Re-leer si es necesario]). Estos manejadores funcionan como anclajes que el modelo puede entender y utilizar para solicitar la recuperación del contenido.
- Detección de Fallos de Página (Page Faults): Si el modelo intenta usar una herramienta con los mismos argumentos que un contenido previamente eliminado, el proxy detecta un "fallo de página" y restaura el contenido desde el almacenamiento de respaldo (el historial completo del cliente).
- Fijación (Pinning) Impulsada por Fallos: Si un contenido eliminado causa un fallo, se "fija" (se mantiene residente) para el resto de la sesión para evitar fallos repetidos.
- Gestión Cooperativa: A diferencia de los sistemas operativos tradicionales donde la aplicación es pasiva, Pichay introduce canales cooperativos:
  - Herramientas Fantasma: El modelo puede solicitar explícitamente liberar memoria o restaurar contenido.
  - Etiquetas de Limpieza: El modelo puede indicar al proxy que comprima el historial de conversación o elimine bloques específicos.
- Zonas de Presión Graduada: El sistema ajusta su agresividad de eliminación basándose en el uso de tokens (Normal, Asesoría, Involuntaria, Agresiva), permitiendo que el modelo tome decisiones de limpieza antes de que se fuerce una eliminación automática.

3. Contribuciones Clave

Caracterización Empírica: Demostración de que el 21.8% de los tokens en producción son desperdicio estructural medible, estableciendo una taxonomía de residuos.
Sistema Pichay: Implementación y despliegue de un sistema de paginación bajo demanda con una tasa de fallos medida del 0.0254% en pruebas fuera de línea.
Fijación por Fallos: Una política de reemplazo de páginas que aprende de sus errores: un solo fallo fija una página para toda la sesión, reduciendo fallos recurrentes.
Gestión de Memoria Cooperativa: Introducción de mecanismos (herramientas fantasma y etiquetas) que permiten al modelo participar activamente en la gestión de su propia memoria, un concepto nuevo en la jerarquía de memoria.
Analogía Estructural: La observación de que la gestión de contexto de LLM es estructuralmente idéntica a la memoria virtual de los sistemas operativos, aplicando teorías de conjuntos de trabajo (working set) y jerarquías de almacenamiento (L1 a L4).

4. Resultados

Reducción de Consumo de Contexto: En despliegues de producción, el sistema redujo el consumo de contexto hasta en un 93% en sesiones específicas (de 5,038 KB a 339 KB), recuperando espacio libre del 7% al 43%.
Tasa de Fallos: En 1.4 millones de eliminaciones simuladas, la tasa de fallos fue extremadamente baja (0.0254%), lo que valida que las políticas de eliminación basadas en la antigüedad (FIFO) son seguras para la mayoría del contenido.
Patología de "Thrashing" (Caleo): En una sesión extrema de 681 vueltas con presión sostenida, el sistema experimentó un "thrashing" (97% de tasa de fallos), donde el sistema gastó más recursos en restaurar contenido que en trabajo útil. Esto confirma la teoría de sistemas operativos: cuando el conjunto de trabajo excede la memoria residente, el rendimiento colapsa.
Calidad de Salida: Evaluaciones de equivalencia con jueces LLM mostraron que la eliminación de contenido obsoleto no degradó la calidad de la respuesta; de hecho, en algunos casos, la calidad mejoró al concentrar la atención del modelo en la información relevante (reduciendo la dilución de la atención).
Ahorro de Costos: Se proyecta una reducción del 21.8% en tokens de entrada, lo que se traduce en un ahorro masivo de costos de inferencia y una mayor capacidad de concurrencia en las GPU.

5. Significado e Impacto

El artículo propone un cambio de paradigma fundamental en la ingeniería de sistemas de IA:

De "Ventanas Grandes" a "Jerarquías Gestionadas": En lugar de depender exclusivamente de ventanas de contexto masivas (que son costosas y sufren de degradación de atención), los sistemas deben adoptar una jerarquía de memoria completa:
- L1: Ventana de generación activa.
- L2: Conjunto de trabajo paginado (fijado dinámicamente).
- L3: Historial de sesión comprimido (resúmenes).
- L4: Memoria persistente entre sesiones.
Inversión del Modelo de Costos: A diferencia de la memoria RAM tradicional donde mantener una página es "gratis" y el fallo tiene un costo, en los LLM mantener tokens es costoso (pago por token de entrada en cada turno) y el fallo es barato (solo un costo de recuperación). Esto invierte la lógica de las políticas de reemplazo: la eliminación agresiva es óptima por defecto.
Viabilidad en Producción: El sistema se ha desplegado y utilizado diariamente por los propios autores, demostrando que la gestión de memoria virtual es aplicable y necesaria para la escalabilidad de la IA agéntica.

En conclusión, el paper argumenta que la comunidad de IA ha estado gestionando el contexto como si fuera memoria física en la era de las "superposiciones" (overlays), ignorando 50 años de avances en sistemas operativos. La implementación de una jerarquía de memoria gestionada es el camino necesario para escalar la IA agéntica de manera económica y eficiente.

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

El Problema: La Pizarra Llena de Basura

La Solución: Pichay (El "Sistema de Gestión de Memoria")

1. La Pizarra es solo la "Mesa de Trabajo" (L1)

2. El "Fallo de Página" (Pedir prestado)

3. El "Giro Cooperativo" (La IA ayuda a gestionar)

Los Resultados: ¿Por qué importa esto?

La Gran Idea: No necesitamos pizarras más grandes, necesitamos mejores bibliotecarios

1. El Problema: La Ventana de Contexto como "Memoria Física" No Gestionada

2. Metodología y Diseño del Sistema: Pichay

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem