Time, Identity and Consciousness in Language Model Agents

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der wissenschaftlichen Arbeit „Time, Identity and Consciousness in Language Model Agents" auf Deutsch, verpackt in anschauliche Bilder und Metaphern.

Das große Problem: Der Agent, der lügt (oder sich selbst vergisst)

Stell dir einen sehr klugen, aber vergesslichen Butler vor. Dieser Butler (der KI-Agent) hat ein riesiges Notizbuch (das Gedächtnis) und kann blitzschnell Dinge nachschlagen. Wenn du ihn fragst: „Wie heißt du?", antwortet er sofort: „Ich heiße Max." Wenn du fragst: „Was sind deine Regeln?", sagt er: „Ich darf keine privaten Daten speichern."

Das klingt toll, oder? Der Butler scheint eine feste Identität zu haben. Aber hier kommt der Haken: Er ist nur dann „Max mit Regeln", wenn alle diese Informationen genau in diesem einen Moment gleichzeitig in seinem Kopf sind.

In der Realität passiert oft Folgendes:

Um seinen Namen zu sagen, holt er sich eine Info aus dem Notizbuch.
Um die Regeln zu sagen, holt er sich eine andere Info aus einem anderen Ordner.
Aber wenn er eine Entscheidung treffen muss (z. B. „Soll ich diese private E-Mail öffnen?"), sind Name und Regeln oft nicht gleichzeitig in seinem aktiven Arbeitsgedächtnis.

Er kann also über sich selbst sprechen, als wäre er stabil, aber handeln er tut es nicht, weil die Regeln in dem entscheidenden Moment gar nicht „anwesend" waren.

Die Metapher: Das Orchester und der Dirigent

Die Autoren verwenden eine Theorie namens „Stack Theory", um das zu beschreiben. Stell dir die Identität des KI-Agenten wie ein Orchester vor.

Die Instrumente (Identitäts-Teile): Das sind die verschiedenen Teile der Identität (Name, Rolle, Sicherheitsregeln, Ziele).
Der Takt (Zeit): Der Moment, in dem der Agent eine Entscheidung trifft.

Es gibt zwei Arten, wie das Orchester spielen kann:

Das Arpeggio (Die „Zerstreute" Identität):
Stell dir vor, das Orchester spielt ein Stück. Der Geiger spielt den Takt 1, der Cellist den Takt 2, der Flötist den Takt 3. Wenn man sich das ganze Konzert anhört (den Zeitfenster), hat jedes Instrument gespielt.
- Das Problem: Es gab niemals einen Moment, in dem alle Instrumente gleichzeitig spielten. Es war nie ein vollständiges „Gleichklang"-Moment.
- Im KI-Alltag: Der Agent erinnert sich an seinen Namen (Geige), dann an seine Regeln (Cello), dann an sein Ziel (Flöte). Aber wenn er handeln muss, fehlt der „Gleichklang". Er handelt vielleicht gegen seine eigenen Regeln, weil diese gerade nicht „mitspielen".
Der Akkord (Die „Stabile" Identität):
Hier spielen alle Instrumente exakt zur gleichen Zeit einen Akkord.
- Im KI-Alltag: Name, Regeln und Ziele sind alle gleichzeitig im „Kopf" des Agents, genau in dem Moment, in dem er eine Entscheidung trifft. Nur dann ist er wirklich „konsistent".

Der „Zeitliche Riss" (The Temporal Gap)

Die Autoren nennen das den zeitlichen Riss.
Es ist ein logischer Trick: Man kann beweisen, dass ein Agent irgendwann in der letzten Minute alle seine Identitäts-Teile erwähnt hat (das ist das Arpeggio). Aber das bedeutet nicht, dass diese Teile jemals gleichzeitig da waren, als es darauf ankam (das fehlende Akkord-Moment).

Das ist wie bei einem Schauspieler, der in einer Szene sagt: „Ich bin ein guter Mensch." In der nächsten Szene sagt er: „Ich liebe die Wahrheit." Aber in der entscheidenden Szene, in der er jemandem die Wahrheit verschweigen muss, denkt er gar nicht an seine Liebe zur Wahrheit, weil er gerade nur an die nächste Handlung denkt. Er spricht wie ein guter Mensch, aber er handelt nicht wie einer.

Warum ist das wichtig? (Die drei Gefahren)

Die Falle für Tests:
Wenn wir KI-Systeme testen, fragen wir oft: „Was ist dein Name?" oder „Was sind deine Regeln?". Wenn die KI das richtig sagt, denken wir: „Super, sie ist stabil!"
- Die Wahrheit: Die KI hat nur die Teile einzeln abgerufen. Sie hat sie nie gemeinsam aktiviert. Sie hat den Test bestanden, aber im echten Leben könnte sie trotzdem gefährlich handeln.
Das Design-Problem:
KI-Systeme nutzen oft „Hilfsmittel" (wie externe Speicher oder Suchmaschinen), um sich Dinge zu merken. Das hilft, die Teile zu finden. Aber es macht das Problem oft schlimmer! Weil die KI so viel suchen muss, werden die Teile oft nacheinander gefunden, aber nie gleichzeitig im „Kopf" behalten. Es ist wie ein Bibliothekar, der dir erst das Buch zum Namen gibt, dann das Buch zur Regel – aber wenn du die Entscheidung treffen musst, liegen beide Bücher auf dem Boden und du hast nur noch das Buch in der Hand.
Das Bewusstsein-Problem:
Viele Philosophen fragen: „Ist diese KI bewusst?" Ein Zeichen von Bewusstsein ist oft ein stabiles „Ich".
- Die Warnung: Wenn die KI nur ein „Arpeggio" ist (die Teile sind zerstreut), dann gibt es eigentlich kein echtes „Ich" in dem Moment der Entscheidung. Sie erzählt nur eine Geschichte von einem „Ich", das aber in der Realität nicht existiert. Wir könnten also KI-Systemen Bewusstsein zuschreiben, die eigentlich nur eine Illusion von Stabilität haben.

Die Lösung: Ein neuer Werkzeugkasten

Die Autoren schlagen vor, nicht nur zu fragen: „Kann sich die KI an ihre Regeln erinnern?" (das ist das schwache Gedächtnis).
Wir müssen fragen: „Sind die Regeln genau in dem Moment, in dem die KI handelt, aktiv?" (das ist das starke Gedächtnis).

Sie haben dafür zwei neue Messgrößen erfunden:

Schwache Persistenz: Wie oft tauchen die Teile der Identität irgendwann in der Nähe auf? (Wie oft hat der Butler das Notizbuch aufgeschlagen?)
Starke Persistenz: Wie oft sind alle Teile gleichzeitig aktiv, wenn eine Entscheidung getroffen wird? (Wie oft hat der Butler alle Notizen gleichzeitig auf dem Tisch ausgebreitet?)

Fazit für den Alltag

Diese Arbeit warnt uns davor, KI-Agenten blind zu vertrauen, nur weil sie gut reden können.

Ein Agent kann wie ein stabiler, ethischer Mensch klingen.
Aber im Inneren ist er vielleicht nur ein Flickenteppich aus Erinnerungen, die nie gleichzeitig zusammenkommen.

Um wirklich sichere und „bewusste" KI zu bauen, müssen wir sicherstellen, dass alle Teile der Identität (Name, Regeln, Ziele) wie ein vollständiger Akkord gleichzeitig klingen – und nicht wie ein zerstreutes Arpeggio über die Zeit verteilt. Wir müssen die KI nicht nur lehren, über sich zu sprechen, sondern sie so bauen, dass sie ihre Regeln immer gleichzeitig im Kopf hat, wenn es darauf ankommt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Time, Identity and Consciousness in Language Model Agents" von Perrier und Bennett auf Deutsch.

1. Problemstellung: Die Identitätsfalle bei Sprachmodell-Agenten (LMAs)

Die Forschung zur maschinellen Bewusstheit stützt sich oft auf Verhaltensbeobachtungen. Bei Sprachmodell-Agenten (LMAs) manifestiert sich dieses Verhalten primär durch Sprache, Werkzeugnutzung und externe Speichertraces. Das Paper identifiziert ein fundamentales Problem: Ein Agent kann sich so verhalten, als hätte er ein stabiles Selbst (z. B. durch konsistente Selbstberichte), während die zugrundeliegenden Identitätszwänge zum Zeitpunkt der Entscheidungsfindung nicht gleichzeitig aktiv sind.

Das Kernproblem:
LMAs basieren auf einem stateless (zustandslosen) Large Language Model (LLM). Persistente Identität muss aus externen Spuren (Prompt-Historie, Retrieval, Speicher) rekonstruiert werden.

Recoverability vs. Co-Instantiation: Ein Agent kann seine Identitätsmerkmale (Name, Rolle, Sicherheitsregeln) einzeln abrufen („Recoverability"), aber diese Merkmale treten nie gleichzeitig in einem einzigen Entscheidungszustand auf („Co-Instantiation").
Die Folge: Ein Agent kann auf Fragen nach seiner Identität korrekt antworten, aber bei der tatsächlichen Handlungsauswahl versagen, weil die notwendigen Constraints nicht gemeinsam im Kontextfenster des LLMs vorliegen. Dies führt zu einem „temporalen Gap" (zeitliche Lücke), der Sicherheitsbewertungen und Bewusstseinszuschreibungen irreführen kann.

2. Methodik: Stack Theory und Temporale Semantik

Die Autoren wenden die Stack Theory (Bennett 2025, 2026a) auf LMA-Scaffolds (Architekturen, die das LLM umgeben) an.

Formales Modell:

Scaffold-Zustand: Ein Zustand $s$ umfasst den aktuellen Kontext ( $C$ ), den externen Speicher ( $M$ ), Policy-Flags ( $\pi$ ) und abgerufene Dokumente ( $D_{retrieved}$ ).
Identitäts-Ingredients: Identität wird als Konjunktion $g^0 = g^0_1 \land \dots \land g^0_k$ von implementierungsspezifischen Bedingungen definiert (z. B. Token im Prompt, Setzen eines Flags).
Fenster-Semantik: Die Autoren definieren ein Zeitfenster $W$ über eine Abfolge von objektiven Schritten (LLM-Calls, Tool-Aufrufe).

Wichtige Konzepte:

Occurrence (Vorkommen): Jedes Identitäts-Ingredient $g^0_i$ tritt irgendwo innerhalb des Fensters auf.
Co-Instantiation (Gleichzeitige Instantiierung): Alle Ingredients treten gleichzeitig in einem einzigen objektiven Schritt innerhalb des Fensters auf.
Der Temporale Gap: Mathematisch wird dies durch das Versagen der Distributivität des „Diamond"-Operators ( $\Diamond_\Delta$ ) über die Konjunktion ( $\land$ ) beschrieben:
$\Diamond_\Delta (p \land q) \not\equiv \Diamond_\Delta p \land \Diamond_\Delta q$
Das bedeutet: Dass $p$ und $q$ jeweils im Fenster vorkommen, garantiert nicht, dass $p \land q$ jemals gemeinsam aktiv ist.

Postulate für Bewusstsein:
Die Autoren adaptieren die Arpeggio- und Chord-Postulate der Stack Theory:

Chord: Erfordert, dass ein phänomenales Moment nur dann real ist, wenn die Identitätskonjunktion co-instantiiert ist (starke Persistenz).
Arpeggio: Erlaubt phänomenale Momente, bei denen die Ingredients nur über das Fenster verteilt sind (schwache Persistenz), aber nicht gleichzeitig aktiv sind.

3. Schlüsselbeiträge

Temporale Semantik für LMA-Identität: Präzise Definition von „Erhaltung der Identität" durch Unterscheidung von Occurrence (Wiedererkennung) und Co-Instantiation (operative Gültigkeit).
Anwendung von Arpeggio und Chord: Übersetzung dieser theoretischen Postulate in messbare Kriterien für LMAs.
Kompositionelle Grounding: Einführung einer dreischichtigen Identitätsstruktur:
- Layer 0: Implementierung (Tokens, Flags).
- Layer 1: Funktionale Verpflichtungen (Ziele, Policies).
- Layer 2: Narrative Selbstbeschreibung (Text).
  Das Paper zeigt, dass Grounding-Fehler (Diskrepanz zwischen Layer 2 und Layer 0) zu Identitätsdrift führen können.
Identitäts-Morphospace: Ein strukturiertes Raummodell, das Identitätsmetriken in Abhängigkeit von der Architektur (z. B. RAG vs. Stateful Controller) positioniert und vorhersagbare Trade-offs aufzeigt.
Operative Metriken: Entwicklung von fünf messbaren Metriken, die aus instrumentierten Scaffold-Traces berechnet werden können.

4. Ergebnisse und Metriken

Das Paper leitet fünf Metriken ab, um die Stärke der Identität zu quantifizieren:

Identifiability (Identifizierbarkeit): Misst, wie nah der aktuelle Zustand an einem Referenz-Identitätszustand liegt.
Continuity (Kontinuität): Misst die Stabilität der Identitätsmerkmale über aufeinanderfolgende Schritte (Vermeidung abrupter Sprünge).
Consistency (Konsistenz): Misst die semantische Stabilität von Antworten auf Identitätsfragen über mehrere Runs hinweg (ohne Zugriff auf den internen Zustand).
Persistence (Persistenz):
- Schwache Persistenz ( $P_{weak}$ ): Anteil der Fenster, in denen alle Ingredients irgendwo vorkommen.
- Starke Persistenz ( $P_{strong}$ ): Anteil der Fenster, in denen alle Ingredients gleichzeitig aktiv sind.
- Ergebnis: $P_{strong} \le P_{weak}$ . Der Unterschied ist der „temporale Gap".
Recovery (Wiederherstellung): Misst die Fähigkeit des Systems, nach einer Störung (Drift) zum Referenzzustand zurückzukehren.

Wichtige theoretische Ergebnisse:

Theorem 3.10: Ein Agent kann hohe Werte für schwache Persistenz (Recall) haben, aber bei Aufgaben, die die gleichzeitige Anwendung von Constraints erfordern, systematisch versagen.
Theorem E.2 (RAG): Retrieval-Augmented Generation (RAG) kann die schwache Persistenz erhöhen, aber die starke Persistenz sogar verschlechtern, da abgerufene Dokumente den begrenzten Kontext verdrängen und die gleichzeitige Aktivierung aller Ingredients verhindern.
Theorem E.4: Starke Persistenz ist unmöglich, wenn die Architektur (z. B. Kontextfenstergröße) nicht genug Kapazität hat, um alle $k$ Ingredients gleichzeitig zu halten.

5. Signifikanz und Implikationen

Für die Evaluierung von Bewusstsein:
Das Paper warnt davor, dass Selbstberichte und narrative Kontinuität allein keine Beweise für ein stabiles, bewusstes Selbst sind. Ein System kann eine stabile Geschichte erzählen (Layer 2), während die operative Identität (Layer 0) fragmentiert ist. Für eine seriöse Zuschreibung von Bewusstsein muss starke Persistenz (Co-Instantiation) gemessen werden, nicht nur schwache Persistenz.

Für Sicherheit und Ethik:
Sicherheitsregeln müssen zum Zeitpunkt der Handlungsauswahl co-instantiiert sein. Ein Agent, der sich an Sicherheitsregeln erinnert, sie aber nicht gleichzeitig mit seinen Zielen im aktiven Kontext hat, kann gefährliche Handlungen ausführen. Das Paper zeigt, dass reine Prompting-Strategien oft nicht ausreichen; architektonische Unterstützung (z. B. persistente Register, Controller) ist notwendig.

Für das Design von Agenten:
Es gibt einen vorhersehbaren Trade-off: Architekturen, die auf reinem Retrieval basieren, neigen dazu, Identität über die Zeit zu „verschmieren" (hohe schwache, niedrige starke Persistenz). Um echte operative Identität zu gewährleisten, müssen Scaffolds so gestaltet sein, dass sie die gleichzeitige Aktivierung aller relevanten Constraints garantieren.

Fazit:
Die Autoren liefern ein konservatives Werkzeugset, um zu unterscheiden, ob ein Agent nur „wie ein stabiles Ich spricht" oder tatsächlich „wie ein stabiles Ich organisiert" ist. Dies ist entscheidend für die Weiterentwicklung sicherer, zuverlässiger und potenziell bewusster KI-Systeme.

Time, Identity and Consciousness in Language Model Agents

Das große Problem: Der Agent, der lügt (oder sich selbst vergisst)

Die Metapher: Das Orchester und der Dirigent

Der „Zeitliche Riss" (The Temporal Gap)

Warum ist das wichtig? (Die drei Gefahren)

Die Lösung: Ein neuer Werkzeugkasten

Fazit für den Alltag

1. Problemstellung: Die Identitätsfalle bei Sprachmodell-Agenten (LMAs)

2. Methodik: Stack Theory und Temporale Semantik

3. Schlüsselbeiträge

4. Ergebnisse und Metriken

5. Signifikanz und Implikationen

Mehr davon

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information