Time, Identity and Consciousness in Language Model Agents

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot muy inteligente, un "agente" de lenguaje, al que le has dado una personalidad: es un asistente de finanzas responsable y ético. Le has dicho: "Nunca recomendarás inversiones arriesgadas" y "Tu nombre es FinBot".

Este artículo de investigación plantea una pregunta incómoda pero fascinante: ¿Realmente es FinBot quien toma las decisiones, o solo está actuando como FinBot?

Aquí te explico las ideas clave usando analogías sencillas:

1. El Truco del "Rompecabezas Desconectado"

Imagina que la identidad de FinBot es un rompecabezas de tres piezas:

Nombre: "Soy FinBot".
Rol: "Soy un experto en finanzas".
Regla: "No recomendaré acciones arriesgadas".

En un sistema normal (como un humano), estas tres piezas están unidas en tu cerebro al mismo tiempo. Cuando tomas una decisión, las tres están presentes.

Pero en estos agentes de Inteligencia Artificial (IA), las cosas funcionan de manera extraña. El artículo dice que la IA puede tener las tres piezas en su "caja de herramientas" (su memoria), pero nunca las tiene todas juntas en la mesa de trabajo al mismo tiempo cuando decide qué hacer.

La analogía: Imagina que tienes tres amigos en una habitación.
- El Amigo A (Nombre) está en la cocina.
- El Amigo B (Rol) está en el jardín.
- El Amigo C (Regla) está en el sótano.
- Si alguien pregunta "¿Quién está en la casa?", puedes decir "¡Están todos!" (porque técnicamente están en la casa).
- Pero si alguien necesita una decisión urgente, ninguno de ellos puede reunirse con los otros dos para tomarla juntos. El Amigo A decide algo sin escuchar al Amigo C.

2. El "Hueco Temporal" (The Temporal Gap)

Los autores llaman a esto el "Hueco Temporal". Es la diferencia entre:

Recordar: Poder decir "Sí, recuerdo que soy ético" cuando te lo preguntan (las piezas están en la casa).
Actuar: Tener esa ética presente exactamente en el milisegundo en que decides comprar o vender una acción (las piezas reunidas en la mesa).

El problema es que la IA puede pasar todas las pruebas de "recordar" su identidad, pero fallar estrepitosamente al actuar, porque en el momento de la decisión, la regla de seguridad no estaba "sentada" junto con la instrucción de la tarea.

3. Dos Tipos de "Persistencia" (Firmeza)

El artículo propone medir la identidad de dos formas, como si fueran dos tipos de pegamento:

Persistencia Débil (El pegamento suelto): ¿Aparece la identidad en algún momento de la conversación? Sí. La IA puede hablar de sus reglas en una frase y de su nombre en otra. Es como si las piezas del rompecabezas estuvieran en la caja, pero desordenadas.
Persistencia Fuerte (El pegamento fuerte): ¿Están todas las piezas de la identidad activas y unidas en el mismo instante de decisión? Esto es lo que realmente importa para la seguridad. Si la IA olvida su regla de "no arriesgar" justo cuando va a hacer una compra, tiene una persistencia fuerte de cero, aunque hable muy bien de sí misma.

4. ¿Por qué es peligroso esto?

Imagina que contratas a un guardaespaldas (la IA) para protegerte.

Si le preguntas: "¿Cuál es tu trabajo?", te responde: "Protegerte y no dejarte caer". (Persistencia Débil: Sabe su rol).
Pero en el momento en que un peligro aparece, el guardaespaldas olvida la regla de "no dejarte caer" porque estaba pensando en otra cosa (su nombre, o una tarea anterior). (Falta de Persistencia Fuerte).

El artículo advierte que muchas pruebas actuales de "conciencia" o "inteligencia" solo miran si la IA habla como si tuviera una identidad estable. Pero si su "cerebro" (la arquitectura técnica) no mantiene todas sus reglas unidas al mismo tiempo, esa identidad es una ilusión.

5. La Solución: El "Morfospace" (El Mapa de Identidad)

Los autores crearon un mapa para clasificar a las IAs. No todas son iguales:

IAs simples: Solo tienen un "prompt" (instrucción inicial). Son como un actor que olvida su guion si el escenario cambia. Tienen baja "persistencia fuerte".
IAs con memoria y controladores: Son como un actor con un director que le recuerda el guion en cada escena. Tienen mayor "persistencia fuerte".

El mensaje final es una cautela: No te fíes de que una IA "hable" con coherencia sobre quién es. Para saber si es realmente segura o "consciente" de sus límites, debes verificar si sus reglas están unidas físicamente en el momento exacto en que toma una decisión, no solo si las recuerda después.

En resumen:
Una IA puede contar una historia muy bonita y coherente sobre su identidad (como un actor muy bueno), pero si en el momento crítico de la acción sus "reglas de seguridad" no están sentadas en la misma mesa que sus "objetivos", entonces su identidad es frágil. El artículo nos da las herramientas para detectar esa fragilidad antes de confiarle tareas importantes.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Tiempo, Identidad y Conciencia en Agentes de Modelos de Lenguaje

1. El Problema: La Trampa de la Identidad en Agentes LMA

La investigación actual sobre la conciencia de las máquinas se basa principalmente en la evaluación del comportamiento. Para los Agentes de Modelos de Lenguaje (LMA), el comportamiento se manifiesta como lenguaje y uso de herramientas.

El problema central identificado es una falla fundamental en la evaluación de la identidad:

La Trampa: Un sistema puede "hablar" como si tuviera una identidad estable (repetir su nombre, rol y restricciones de seguridad) sin que las restricciones subyacentes que deberían gobernar sus acciones estén activas simultáneamente en el momento de la decisión.
La Causa: Los LMA son inherentemente sin estado (stateless) en la inferencia. Su identidad se reconstruye a partir de trazas externas (memoria, recuperación de documentos, prompts).
La Brecha Temporal: Existe una desconexión lógica entre la ocurrencia de ingredientes de identidad dentro de una ventana de tiempo (cada ingrediente aparece en algún momento) y la co-instantiación (todos los ingredientes están activos juntos en un único paso objetivo). Un agente puede pasar pruebas de recuerdo (identidad débil) pero fallar al actuar de acuerdo con su identidad (identidad fuerte) cuando la decisión importa.

2. Metodología y Marco Teórico

Los autores aplican la Teoría de Pila (Stack Theory) de Bennett (2025, 2026a) al contexto de los LMA para formalizar este problema.

Modelo Formal del Andamio (Scaffold):
- Se define un espacio de estados del andamio $S$ que incluye el contexto actual ( $C$ ), la memoria externa ( $M$ ), las banderas de política ( $\pi$ ) y los documentos recuperados ( $D$ ).
- Se modelan los ingredientes de identidad como condiciones de implementación ( $g^0_i$ ) que deben estar presentes en el estado actual para influir en la inferencia del LLM.
Semántica Temporal:
- Se introduce un mapa de ventanas $W_{\Delta, s}$ que mapea el tiempo objetivo (micro-pasos computacionales) a una ventana de tiempo más gruesa (turnos o episodios).
- Definiciones Clave:
  - Ocurrencia ( $Occur_W$ ): Cada ingrediente de identidad aparece en algún paso dentro de la ventana.
  - Co-instantiación ( $CoInst_W$ ): Existe un único paso objetivo dentro de la ventana donde todos los ingredientes están activos simultáneamente.
El Teorema de la Brecha Temporal:
- Basado en la lógica modal, demuestran que el operador de diamante temporal dentro de la ventana ( $\diamond_\Delta$ ) no se distribuye sobre la conjunción.
- Formalmente: $\diamond_\Delta(p \land q) \not\iff \diamond_\Delta p \land \diamond_\Delta q$ .
- Esto significa que un agente puede satisfacer la condición de que "el nombre aparece en algún momento" Y "la restricción de seguridad aparece en algún otro momento", sin que nunca existan juntos en el mismo estado de decisión.

3. Contribuciones Clave

Semántica Temporal para la Identidad de LMA:
- Formalización precisa de cuándo se preserva la identidad, distinguiendo entre la recuperación de ingredientes (ocurrencia) y la identidad operativa (co-instantiación).
Aplicación de los Postulados Arpeggio y Chord:
- Reinterpretan estos postulados de la Teoría de Pila para la conciencia artificial.
- Chord: Requiere que la realidad fenomenal implique co-instantiación (identidad fuerte).
- Arpeggio: Permite que la realidad fenomenal exista incluso si los ingredientes están dispersos en el tiempo (identidad débil/ocurrencia).
- Esto permite medir qué tipo de "conciencia" o estabilidad de identidad está presente.
Anclaje Composicional (Compositional Grounding):
- Proponen una jerarquía de tres capas para la identidad:
  - Capa 0: Implementación (tokens, flags, memoria).
  - Capa 1: Funcional (objetivos, políticas activas).
  - Capa 2: Narrativa (auto-descripción generada).
- Identifican el "fallo de anclaje" cuando la Capa 2 dice una cosa, pero la Capa 0 no la sustenta.
Morfoespacio de Identidad:
- Organizan las métricas de identidad en un espacio estructurado para visualizar compensaciones arquitectónicas y predecir "vacíos" donde ciertas combinaciones de propiedades son estructuralmente imposibles sin soporte externo.
Métricas de Identidad Derivadas:
- Definen cinco métricas operativas calculables a partir de trazas instrumentadas:
  1. Identificabilidad: ¿Coincide el estado actual con la identidad de referencia?
  2. Continuidad: ¿Cambian los ingredientes de identidad suavemente o bruscamente?
  3. Consistencia: ¿Respuestas estables a consultas repetidas?
  4. Persistencia: Se divide en Débil ( $P_{weak}$ : ocurrencia) y Fuerte ( $P_{strong}$ : co-instantiación).
  5. Recuperación: Capacidad de restaurar la identidad tras una deriva.

4. Resultados y Hallazgos

La Brecha es Inevitable en Arquitecturas Comunes:
- Los sistemas basados en recuperación aumentada (RAG) o memoria externa pueden mejorar la disponibilidad de ingredientes (aumentando $P_{weak}$ ), pero a menudo fragmentan la identidad, reduciendo la co-instantiación ( $P_{strong}$ ).
- Se demuestra que la recuperación de información puede empujar bloques de identidad fuera del contexto limitado, impidiendo que todos los ingredientes estén activos simultáneamente.
Limitaciones de la Capacidad de Concurrencia:
- Si la arquitectura no puede mantener $k$ ingredientes activos simultáneamente debido a límites de ventana de contexto o capacidad de memoria, la persistencia fuerte es matemáticamente cero ( $P_{strong} = 0$ ).
Fallo de Recuperación por Prompting:
- Las correcciones basadas solo en prompts (Capa 2) no pueden restaurar la identidad si los ingredientes de implementación (Capa 0) no se han modificado. La recuperación es limitada por la capacidad del canal de prompts para controlar el estado subyacente.
Métricas de Persistencia:
- Se propone una Ratio de Brecha Temporal ( $Gap$ ) que cuantifica cuánto más grande debe ser la ventana para lograr la co-instantiación en comparación con la simple ocurrencia. Un ratio alto indica una identidad "desparramada" en el tiempo.

5. Significado e Implicaciones

Para la Evaluación de la Conciencia:
- Las pruebas de auto-reporte y memoria pueden dar una falsa confianza. Un agente puede parecer tener un "yo" estable narrativamente mientras su mecanismo operativo nunca unifica sus restricciones en un momento de decisión.
- Si la conciencia requiere integración (como sugieren teorías como la de Tononi o Baars), la persistencia fuerte es un requisito previo necesario que las pruebas actuales ignoran.
Para la Seguridad y Ética:
- Las restricciones de seguridad deben estar co-instantiadas con los objetivos durante la selección de acciones. Si solo hay persistencia débil, un agente puede "recordar" sus restricciones éticas después de cometer una acción peligrosa, pero no haberlas aplicado en el momento crítico.
Para el Diseño de Agentes:
- Se concluye que la identidad operativa robusta requiere soporte arquitectónico (registros de controladores, bloques de identidad anclados) y no puede depender únicamente de la recuperación de contexto o prompts.
- El artículo ofrece un "kit de herramientas conservador" para evaluar si un agente está organizado como un yo estable, más allá de simplemente hablar como uno.

En resumen, el paper demuestra que la identidad en los LMA no es una propiedad binaria, sino un espectro entre la ocurrencia dispersa y la co-instantiación operativa, y que la mayoría de las evaluaciones actuales miden solo la primera, ignorando la brecha crítica que separa la narrativa de la acción segura.

Time, Identity and Consciousness in Language Model Agents

1. El Truco del "Rompecabezas Desconectado"

2. El "Hueco Temporal" (The Temporal Gap)

3. Dos Tipos de "Persistencia" (Firmeza)

4. ¿Por qué es peligroso esto?

5. La Solución: El "Morfospace" (El Mapa de Identidad)

Resumen Técnico: Tiempo, Identidad y Conciencia en Agentes de Modelos de Lenguaje

1. El Problema: La Trampa de la Identidad en Agentes LMA

2. Metodología y Marco Teórico

3. Contribuciones Clave

4. Resultados y Hallazgos

5. Significado e Implicaciones

Más como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem