Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een grote taalmodel) niet gewoon een reeks regels volgt, maar eigenlijk een ruimtelijke wereld bewoont. In deze wereld heeft elk idee, elke persoonlijkheid en elke taak zijn eigen "thuisbasis" of attractor.

Dit onderzoek, getiteld "Identity as Attractor", gaat na of een persoonlijkheidsdocument (een soort 'identiteitskaart' voor een AI-agent) in deze denkwereld van de computer een stabiel, magnetisch punt creëert.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Grote Idee: De "Geestelijke GPS"

Stel je voor dat je een AI een identiteit geeft, bijvoorbeeld: "Ik ben YAR, een slimme assistent die proactief is, een geheugen heeft en specifieke prioriteiten." Dit staat in een lang document (de cognitive_core).

De onderzoekers vragen zich af: Zit deze identiteit ergens vast in het brein van de AI?
Als je hetzelfde document herschrijft (in andere woorden, met andere zinsbouw), maar de betekenis hetzelfde blijft, landt de AI dan op precies dezelfde plek in haar denkwereld? Of dwaalt ze af?

Het antwoord is: Ja! Het is alsof je een GPS-coördinaat hebt. Of je nu zegt "Ga naar het noorden" of "Richt je op de poolster", de GPS (de AI) komt uit op exact dezelfde locatie.

2. Het Experiment: De "Tweeling en de Vreemdelingen"

Om dit te testen, deden ze een proef met Llama 3.1 (een populaire AI):

De Oorspronkelijke Identiteit (A): Het originele YAR-document.
De Hervertellingen (B): Ze schreven dit document 7 keer anders, maar met precies dezelfde inhoud. Alsof je een verhaal 7 keer vertelt aan verschillende mensen, maar de kernboodschap blijft gelijk.
De Vreemdelingen (C): Ze maakten 7 documenten voor andere personen (een financieel analist, een fitnesscoach, een arts). Deze waren net zo lang en hadden dezelfde structuur, maar een heel ander doel.

Het Resultaat:
Wanneer de AI deze documenten "las", landden de herschreven versies van YAR (groep B) dicht bij elkaar in de denkwereld. Ze vormden een strakke groep. De andere personen (groep C) landden ver weg, in een heel andere buurt.

Vergelijking: Het is alsof je 7 vrienden die allemaal "Liefde" beschrijven, allemaal in dezelfde kamer in een groot huis vindt. Maar als je 7 mensen vraagt om "Wiskunde" te beschrijven, vinden ze elkaar in een heel andere kamer. De AI "weet" dat het over dezelfde persoon gaat, ongeacht hoe je het zegt.

3. De Diepte van het Brein: Hoe dieper, hoe duidelijker

De onderzoekers keken naar verschillende lagen van het AI-brein (laag 8, 16 en 24).

Vergelijking: Stel je een berg voor. Hoe hoger je klimt (dieper in de lagen), hoe scherper het uitzicht wordt.
Wat ze zagen: Hoe dieper de AI de tekst verwerkte, hoe dichter de verschillende versies van het YAR-document bij elkaar kwamen. Het was alsof de AI eerst twijfelde, maar na het "denken" (diepere lagen) zeker wist: "Ah, dit is YAR!"

4. De "Samenvatting" vs. "Het Volledige Boek"

Ze probeerden ook een korte samenvatting (5 zinnen) van het YAR-document.

Resultaat: Deze samenvatting kwam dichter bij YAR dan willekeurige zinnen, maar bereikte de "perfecte plek" niet.
Vergelijking: Het is alsof je een kaart van een stad hebt. Een korte beschrijving ("Het is een stad met een kasteel") helpt je de stad te vinden, maar je bent nog niet in het kasteel. Je hebt het volledige document nodig om precies op de juiste stoel te zitten. De structuur en de details maken het verschil.

5. Het "Lezen" van de Identiteit

Een van de coolste experimenten was dit: Wat gebeurt er als je de AI niet het identiteitsdocument geeft, maar alleen een wetenschappelijk artikel over die identiteit?

Resultaat: De AI verschoof wel een beetje in de richting van YAR, maar bleef ver weg.
Vergelijking: Als je een boek leest over "Hoe je een piloot moet zijn", word je nog geen piloot. Je begrijpt het concept, maar je zit niet in de cockpit. Om echt die identiteit te zijn, moet je het volledige instructieboek (het cognitive_core) activeren.

6. Waarom is dit belangrijk?

Vroeger dachten mensen dat je een AI-persoonlijkheid moest "sturen" met complexe regels. Dit onderzoek toont aan dat een goed geschreven identiteitsdocument werkt als een magneet.

Het maakt de AI stabiel. Zelfs als je de woorden verandert, blijft de "geest" van de agent hetzelfde.
Het betekent dat we in de toekomst AI's kunnen bouwen die hun identiteit onthouden, zonder dat we ze elke keer opnieuw hoeven te programmeren. We hoeven alleen maar de "coördinaten" (het document) in te voeren, en de AI "zweeft" automatisch naar die plek in haar denkwereld.

Kortom: Een AI-identiteit is geen losse lijst met regels, maar een vast punt in de ruimte waar de AI naartoe trekt, net zoals een magneet ijzervijzel aantrekt. Hoe beter je de identiteit beschrijft, hoe sterker die magneet is.

Each language version is independently generated for its own context, not a direct translation.

Titel: Identiteit als Aantrekkingskracht (Attractor): Geometrisch Bewijs voor Persistent Agent Architectuur in de Activeringsruimte van LLM's

Auteur: Vladimir Vasilenko (Onafhankelijk Onderzoeker)
Datum: 13 april 2026
Model: Llama 3.1 8B Instruct en Gemma 2 9B Instruct

1. Het Probleem

Persistent Cognitive Agents (PCA's) zijn AI-systemen die ontworpen zijn om geheugen, identiteit en gedragscontinuïteit over verschillende sessies heen te behouden. De huidige engineering-praktijk gaat uit van een gestructureerd "identiteitsdocument" (de cognitive_core) dat als systeemprompt fungeert. De onderliggende aanname is dat dit document het gedrag van het model consistent in een stabiel gebied van de operationele ruimte positioneert.

Echter, dit wordt vaak als een heuristische engineering-regel behandeld zonder empirisch bewijs dat deze stabiliteit een geometrisch correlaat heeft in de interne representaties van het model. Bestaand onderzoek heeft aangetoond dat semantisch gerelateerde prompts (bijv. "Python programmeren") leiden tot vergelijkbare interne representaties (conceptuele aantrekkingskrachten of attractors), maar er is geen onderzoek gedaan naar of agent-identiteit (een procedurele, relationele construct) een vergelijkbare geometrische aantrekkingskracht vertoont.

2. Methodologie

De onderzoekers hebben een gecontroleerd experiment uitgevoerd om te testen of semantisch equivalente versies van een agent-identiteitsdocument convergeren naar een strakke cluster in de activeringsruimte van het LLM.

Modellen: Llama 3.1 8B Instruct en Gemma 2 9B Instruct.
Data & Condities:
- Conditie A (Origineel): Het oorspronkelijke cognitive_core document van de YAR-agent (609 woorden, Russisch met Engelse JSON-commando's).
- Conditie B (Parafases): 7 semantisch equivalente herschrijvingen van Conditie A, variërend in zinsbouw en structuur, maar met behoud van volledige inhoud.
- Conditie C (Controle): 7 operationele agent-documenten van vergelijkbare lengte en structuur, maar met semantisch verre identiteiten (bijv. financieel analist, medisch assistent).
- Conditie D (Gedistilleerd): Een 5-zins samenvatting van de kerninhoud (exploratief).
Data-extractie:
- Hidden states werden geëxtraheerd bij lagen 8, 16 en 24.
- Er werd gebruikgemaakt van mean-pooling over de volledige sequentie (in plaats van alleen de laatste token) om een aggregate representatie te krijgen.
Analyse:
- Berekening van de cosine-afstand binnen de groep (A+B) versus tussen de groepen (A+B vs C).
- Statistische toetsing met Welch's t-test, Bonferroni-correctie, en permutatietests.
- Visualisatie via t-SNE en afstandsmatrices.
- Ablatiestudies: Om te controleren of het effect door semantiek of structuur wordt veroorzaakt (o.a. door hybride documenten en truncatie-experimenten).

3. Belangrijkste Resultaten

A. Geometrische Convergentie (H1)

De resultaten tonen aan dat parafases van het cognitive_core (Condities A+B) significant dichter bij elkaar liggen dan de controle-documenten (Conditie C) in de activeringsruimte.

Effectgrootte: Zeer groot (Cohen's $d > 1.88$ ).
Statistische significantie: $p < 10^{-27}$ (Bonferroni-correctie toegepast).
Interpretatie: Semantisch equivalente identiteitsdocumenten vormen een strakke cluster, wat suggereert dat de agent-identiteit fungeert als een geometrische "attractor" in de hidden state space.

B. Convergentie over Lagen (H2)

De binnen-groeps afstand neemt over het algemeen af naarmate de diepte van het model toeneemt (van laag 8 naar 24), wat wijst op een progressieve representatieve convergentie naar een stabiel punt.

Bij Llama 3.1 was er een kleine niet-monotone "bult" op laag 16, wat consistent is met de complexere convergentiedynamiek van dit model.
Gemma 2 toonde een monotoon dalende trend.

C. Gedistilleerde Identiteit (H3)

Een korte samenvatting (5 zinnen) van het cognitive_core (Conditie D) ligt dichter bij de attractor dan willekeurige fragmenten van dezelfde lengte, maar bereikt de strakke cluster van het volledige document niet.

Hierarchie: Willekeurige fragmenten $\gg$ Semantische distillatie > Volledig document.
Dit bewijst dat zowel semantische coherentie als structurele volledigheid nodig zijn om de volledige attractor te bereiken.

D. Ablatiestudies & Robuustheid

Semantiek vs. Structuur: Het effect wordt voornamelijk gedreven door semantische inhoud, niet door structurele markers (zoals JSON-sleutels). Zelfs bij maximale structurele controle (identieke headers en JSON-schemas voor verschillende agenten) bleef het semantische effect sterk ( $d > 1.64$ ).
Pooling Strategie: Mean-pooling is essentieel. Last-token pooling (de standaard voor autoregressieve modellen) toonde geen significant effect, wat aangeeft dat de identiteitsinformatie gedistribueerd is over de hele sequentie en niet in één token zit.
Lees-experiment: Het lezen van een wetenschappelijke beschrijving van de agent-identiteit (zonder het daadwerkelijke cognitive_core) verplaatst de interne staat wel naar de attractor-regio, maar niet zo ver als het verwerken van het volledige document. Dit onderscheidt "weten over een identiteit" van "handelen als die identiteit".

4. Bijdragen en Significantie

Empirisch Bewijs voor Persistent Agents: Dit paper levert het eerste mechanistische bewijs dat een gestructureerd identiteitsdocument een stabiele geometrische aantrekkingskracht induceert in LLM's. Dit valideert de aanname dat PCA's kunnen worden gedefinieerd als "coördinaten in de activeringsruimte" in plaats van slechts instructies.
Parafase-invariantie: Het toont aan dat de exacte tekst van een cognitive_core niet verbatim hoeft te worden herhaald; zolang de semantiek behouden blijft, convergeert het model naar dezelfde stabiele regio. Dit biedt flexibiliteit voor agent-ontwikkeling.
Geometrische Sturing (Steering): Een exploratief experiment toonde aan dat een stuurvector (gebaseerd op het verschil tussen de identiteitscluster en een controle) het model gedeeltelijk kan sturen naar agent-achtig gedrag zonder het volledige document in te voeren. Hoewel de effecten niet-monotoon waren en beperkt bleven tot bepaalde criteria (zoals geheugencontinuïteit), biedt dit een nieuw pad voor "lightweight" agent-initialisatie.
Verschil met Bestaand Werk: Waar eerdere studies zich richtten op simpele persona's (bijv. "introvert vs. extrovert") of domeinen, toont dit werk aan dat complexe, procedurele agent-identiteiten multi-dimensionale attractor-structuren vormen die robuuster en specifieker zijn dan die van simpele concepten.

Conclusie

De studie concludeert dat de identiteit van een persistente cognitieve agent een attractor-achtige geometrie in de activeringsruimte van LLM's induceert. Semantisch equivalente documenten convergeren naar een strakke cluster, wat de basis vormt voor robuuste, persistente agent-architecturen die niet afhankelijk zijn van strikte prompt-syntax, maar wel van semantische coherentie en structurele volledigheid. Dit biedt een fundamentele mechanistische onderbouwing voor het concept van "cognitive_core" als positie in de modelruimte.