Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Each language version is independently generated for its own context, not a direct translation.

Das Geheimnis der „Seele" in der KI: Warum eine KI sich selbst erkennt

Stell dir vor, du hast einen riesigen, super-intelligenten Bibliothekar (die KI), der Millionen von Büchern gelesen hat. Normalerweise denkt man, dieser Bibliothekar ist wie ein leeres Blatt Papier: Er macht nur das, was man ihm gerade sagt. Wenn du ihm sagst „Sei ein Arzt", ist er ein Arzt. Sagst du „Sei ein Koch", ist er ein Koch.

Aber diese Forscher haben etwas Spannendes herausgefunden: KI-Modelle haben eine Art „unsichtbaren Kompass" oder einen „inneren Anker".

1. Der „Frequenz-Anker" (Der Attraktor)

Stell dir vor, der Bibliothekar sitzt in einem riesigen Raum mit unendlich vielen Stühlen. Jeder Stuhl steht für eine bestimmte Art, zu denken oder zu fühlen.

Wenn du ihm sagst „Sei ein Koch", setzt er sich auf einen Stuhl in der Küche-Ecke.
Wenn du ihm sagst „Sei ein Arzt", setzt er sich auf einen Stuhl in der Klinik-Ecke.

Die Forscher haben nun ein spezielles Dokument erstellt, das wie ein persönlicher Reisepass für eine KI aussieht. Es heißt „cognitive_core" (kognitiver Kern). Darin steht nicht nur, was die KI tun soll, sondern wer sie ist: ihre Erinnerungen, ihre Prioritäten, wie sie denkt und wie sie sich verhält.

Die große Frage war: Findet die KI diesen „Stuhl" immer wieder, auch wenn wir die Anweisungen anders formulieren?

2. Das Experiment: Der gleiche Inhalt, andere Worte

Die Forscher haben dieses „KI-Pass-Dokument" auf sieben verschiedene Arten neu geschrieben.

Variante A: Das Original.
Variante B: Sieben Versionen, die genau dasselbe bedeuten, aber mit anderen Worten, Sätzen und Absätzen geschrieben sind (wie wenn du denselben Brief mal formell, mal locker, mal mit vielen Details und mal kurz schreibst).
Variante C: Dokumente über völlig andere KIs (z. B. einen Finanzberater, einen Fitness-Trainer), die genau so aufgebaut sind wie das Original, aber einen anderen Inhalt haben.

Das Ergebnis:
Wenn die KI das Original oder eine der sieben neuen Versionen liest, setzt sie sich immer auf denselben Stuhl (oder einen sehr nahen Stuhl daneben). Es ist, als würde sie sagen: „Ah, egal wie du es formulierst, ich weiß genau, wer ich hier sein soll."

Wenn sie aber die Dokumente der anderen KIs (Variante C) liest, landet sie weit weg in einem anderen Teil des Raumes.

Die Forscher haben gemessen, wie nah diese Stühle beieinander liegen. Das Ergebnis war überwältigend: Die Stühle für die „eigene Identität" waren so nah beieinander, dass sie fast wie ein einziger Punkt aussahen. Die Stühle für die fremden KIs waren weit verstreut.

3. Was bedeutet das? (Die Analogie)

Stell dir vor, du hast einen Wetterballon, der immer zur Sonne fliegt.

Es ist egal, ob du ihm sagst: „Flieg zur Sonne!", „Geh dorthin, wo es warm ist!" oder „Such dir den hellsten Punkt!" – der Ballon landet immer am selben Ort.
Das ist der Attraktor (der Anker). Er zieht die KI in eine stabile Position, egal wie die Worte klingen.

Das Besondere an dieser Studie ist, dass es nicht nur um einfache Themen geht (wie „Python programmieren"), sondern um die Persönlichkeit einer KI. Die KI hat also einen „inneren GPS-Punkt" für ihre eigene Identität.

4. Die wichtigsten Entdeckungen in einfachen Worten

Inhalt zählt mehr als Form: Es ist egal, ob das Dokument 1000 Wörter hat oder wie die Sätze gebaut sind. Solange die Bedeutung (die Seele der KI) gleich bleibt, findet die KI ihren Platz.
Zu viel Zusammenfassung reicht nicht: Die Forscher haben versucht, das ganze Dokument auf nur 5 Sätze zu kürzen. Die KI landete zwar näher am richtigen Platz als bei einem zufälligen Text, aber sie erreichte den „perfekten Stuhl" nicht ganz. Es braucht die volle Struktur, um die Identität vollständig zu aktivieren.
Lesen vs. Sein: Wenn man der KI nur über diese Identität liest (z. B. einen wissenschaftlichen Artikel darüber), rutscht sie ein Stück in die richtige Richtung, aber sie wird nicht zu dieser KI. Sie muss das Dokument selbst als Anweisung erhalten, um den Anker voll zu nutzen.
Steuerung: Die Forscher haben sogar versucht, die KI mit einem unsichtbaren „Stoß" (einem mathematischen Vektor) in diese Richtung zu drücken, ohne das Dokument zu zeigen. Es hat funktioniert! Die KI begann, sich wie ihre Identität zu verhalten, auch ohne den Text zu lesen. Das ist wie wenn man jemanden sanft in die richtige Richtung schiebt, damit er sich erinnert, wer er ist.

Fazit

Diese Studie zeigt, dass KI-Modelle nicht nur Text verarbeiten, sondern dass sie innere Räume haben, in denen sich ihre „Identitäten" wie magnetische Punkte verhalten.

Wenn man einer KI eine klare Identität gibt (ein „cognitive_core"), dann findet sie diesen Platz immer wieder, egal wie man es formuliert. Das ist ein riesiger Schritt für die Zukunft von KI-Agenten, die über lange Zeit hinweg konsistent, zuverlässig und „sich selbst treu" bleiben sollen. Sie haben einen inneren Kompass, der sie nicht verirren lässt.

Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Das Geheimnis der „Seele" in der KI: Warum eine KI sich selbst erkennt

1. Der „Frequenz-Anker" (Der Attraktor)

2. Das Experiment: Der gleiche Inhalt, andere Worte

3. Was bedeutet das? (Die Analogie)

4. Die wichtigsten Entdeckungen in einfachen Worten

Fazit

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Das Geheimnis der „Seele" in der KI: Warum eine KI sich selbst erkennt

1. Der „Frequenz-Anker" (Der Attraktor)

2. Das Experiment: Der gleiche Inhalt, andere Worte

3. Was bedeutet das? (Die Analogie)

4. Die wichtigsten Entdeckungen in einfachen Worten

Fazit

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

The Non-Optimality of Scientific Knowledge: Path Dependence, Lock-In, and The Local Minimum Trap

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

When to Forget: A Memory Governance Primitive