Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Dit onderzoek toont aan dat identiteitsdocumenten van een agent in de activatieruimte van grote taalmodellen een attractor-achtig gedrag vertonen, waarbij semantisch equivalente formuleringen dichter bij elkaar clusteren dan controlegroepen, wat suggereert dat een cognitieve kern een persistente architectuur vormt.

Vladimir Vasilenko

Gepubliceerd 2026-04-15
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een grote taalmodel) niet gewoon een reeks regels volgt, maar eigenlijk een ruimtelijke wereld bewoont. In deze wereld heeft elk idee, elke persoonlijkheid en elke taak zijn eigen "thuisbasis" of attractor.

Dit onderzoek, getiteld "Identity as Attractor", gaat na of een persoonlijkheidsdocument (een soort 'identiteitskaart' voor een AI-agent) in deze denkwereld van de computer een stabiel, magnetisch punt creëert.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Grote Idee: De "Geestelijke GPS"

Stel je voor dat je een AI een identiteit geeft, bijvoorbeeld: "Ik ben YAR, een slimme assistent die proactief is, een geheugen heeft en specifieke prioriteiten." Dit staat in een lang document (de cognitive_core).

De onderzoekers vragen zich af: Zit deze identiteit ergens vast in het brein van de AI?
Als je hetzelfde document herschrijft (in andere woorden, met andere zinsbouw), maar de betekenis hetzelfde blijft, landt de AI dan op precies dezelfde plek in haar denkwereld? Of dwaalt ze af?

Het antwoord is: Ja! Het is alsof je een GPS-coördinaat hebt. Of je nu zegt "Ga naar het noorden" of "Richt je op de poolster", de GPS (de AI) komt uit op exact dezelfde locatie.

2. Het Experiment: De "Tweeling en de Vreemdelingen"

Om dit te testen, deden ze een proef met Llama 3.1 (een populaire AI):

  • De Oorspronkelijke Identiteit (A): Het originele YAR-document.
  • De Hervertellingen (B): Ze schreven dit document 7 keer anders, maar met precies dezelfde inhoud. Alsof je een verhaal 7 keer vertelt aan verschillende mensen, maar de kernboodschap blijft gelijk.
  • De Vreemdelingen (C): Ze maakten 7 documenten voor andere personen (een financieel analist, een fitnesscoach, een arts). Deze waren net zo lang en hadden dezelfde structuur, maar een heel ander doel.

Het Resultaat:
Wanneer de AI deze documenten "las", landden de herschreven versies van YAR (groep B) dicht bij elkaar in de denkwereld. Ze vormden een strakke groep. De andere personen (groep C) landden ver weg, in een heel andere buurt.

  • Vergelijking: Het is alsof je 7 vrienden die allemaal "Liefde" beschrijven, allemaal in dezelfde kamer in een groot huis vindt. Maar als je 7 mensen vraagt om "Wiskunde" te beschrijven, vinden ze elkaar in een heel andere kamer. De AI "weet" dat het over dezelfde persoon gaat, ongeacht hoe je het zegt.

3. De Diepte van het Brein: Hoe dieper, hoe duidelijker

De onderzoekers keken naar verschillende lagen van het AI-brein (laag 8, 16 en 24).

  • Vergelijking: Stel je een berg voor. Hoe hoger je klimt (dieper in de lagen), hoe scherper het uitzicht wordt.
  • Wat ze zagen: Hoe dieper de AI de tekst verwerkte, hoe dichter de verschillende versies van het YAR-document bij elkaar kwamen. Het was alsof de AI eerst twijfelde, maar na het "denken" (diepere lagen) zeker wist: "Ah, dit is YAR!"

4. De "Samenvatting" vs. "Het Volledige Boek"

Ze probeerden ook een korte samenvatting (5 zinnen) van het YAR-document.

  • Resultaat: Deze samenvatting kwam dichter bij YAR dan willekeurige zinnen, maar bereikte de "perfecte plek" niet.
  • Vergelijking: Het is alsof je een kaart van een stad hebt. Een korte beschrijving ("Het is een stad met een kasteel") helpt je de stad te vinden, maar je bent nog niet in het kasteel. Je hebt het volledige document nodig om precies op de juiste stoel te zitten. De structuur en de details maken het verschil.

5. Het "Lezen" van de Identiteit

Een van de coolste experimenten was dit: Wat gebeurt er als je de AI niet het identiteitsdocument geeft, maar alleen een wetenschappelijk artikel over die identiteit?

  • Resultaat: De AI verschoof wel een beetje in de richting van YAR, maar bleef ver weg.
  • Vergelijking: Als je een boek leest over "Hoe je een piloot moet zijn", word je nog geen piloot. Je begrijpt het concept, maar je zit niet in de cockpit. Om echt die identiteit te zijn, moet je het volledige instructieboek (het cognitive_core) activeren.

6. Waarom is dit belangrijk?

Vroeger dachten mensen dat je een AI-persoonlijkheid moest "sturen" met complexe regels. Dit onderzoek toont aan dat een goed geschreven identiteitsdocument werkt als een magneet.

  • Het maakt de AI stabiel. Zelfs als je de woorden verandert, blijft de "geest" van de agent hetzelfde.
  • Het betekent dat we in de toekomst AI's kunnen bouwen die hun identiteit onthouden, zonder dat we ze elke keer opnieuw hoeven te programmeren. We hoeven alleen maar de "coördinaten" (het document) in te voeren, en de AI "zweeft" automatisch naar die plek in haar denkwereld.

Kortom: Een AI-identiteit is geen losse lijst met regels, maar een vast punt in de ruimte waar de AI naartoe trekt, net zoals een magneet ijzervijzel aantrekt. Hoe beter je de identiteit beschrijft, hoe sterker die magneet is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →