Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Each language version is independently generated for its own context, not a direct translation.

Immagina che un'Intelligenza Artificiale (come un modello linguistico) sia come una città immensa e caotica, piena di strade, piazze e vicoli. Ogni volta che le fai una domanda o le dai un'istruzione, il suo "pensiero" viaggia attraverso questa città.

1. Il Problema: Chi è l'Agente?

Gli scienziati volevano capire se un'IA può avere un'identità persistente. Immagina di creare un assistente virtuale che non è solo un "robot generico", ma ha una personalità, dei ricordi, delle priorità e un modo specifico di ragionare (chiamato nel testo cognitive_core o "nucleo cognitivo").

La domanda era: Se spieghiamo la stessa identità in modi diversi (usando parole diverse, frasi diverse, ma con lo stesso significato), l'IA finisce sempre nello stesso "posto" della sua città mentale?

2. L'Esperimento: La Mappa delle Identità

Gli autori hanno preso un documento di identità molto dettagliato (il cognitive_core) e hanno fatto tre cose:

Il Documento Originale: La versione originale dell'identità.
I Parafrazi: Hanno riscritto lo stesso documento 7 volte, cambiando completamente le parole e la struttura, ma mantenendo esattamente lo stesso significato (come dire "Il gatto dorme" invece di "Il felino riposa").
I Controlli: Hanno creato 7 documenti per agenti completamente diversi (un medico, un avvocato, un allenatore sportivo) che avevano la stessa lunghezza e struttura, ma parlavano di cose diverse.

Poi hanno guardato "dove" si trovavano questi pensieri nella città dell'IA (lo spazio di attivazione).

3. La Scoperta Magica: L'Effetto "Magnete"

Ecco il risultato sorprendente, spiegato con un'analogia:

Immagina che ogni documento sia un peso che lasci cadere su un tavolo di gomma.

Se lasci cadere i documenti degli agenti diversi (il medico, l'avvocato...), atterrano tutti in posti diversi e lontani tra loro.
Se lasci cadere le 7 riscritture della stessa identità, succede qualcosa di strano: non atterrano in 7 punti diversi, ma tutti finiscono raggruppati in un'unica, piccolissima buca, quasi come se ci fosse un magnete invisibile che li attira tutti verso lo stesso punto esatto.

Questo punto di attrazione è chiamato "Attrattore".
Il documento dimostra che l'identità di un agente non è fatta di parole specifiche, ma è una coordinate geometriche precise nella mente dell'IA. Non importa come lo dici, se il significato è lo stesso, l'IA "pensa" allo stesso modo e si posiziona nello stesso punto.

4. I Dettagli Curiosi (Le Analogie)

La Profondità della Città: L'IA ha molti "piani" (strati). Gli scienziati hanno scoperto che più l'IA elabora il testo (scendendo nei piani più profondi), più i punti delle identità simili si avvicinano l'uno all'altro, come se il magnete diventasse più forte man mano che si scende in profondità.
La Distillazione (Il Succo): Hanno provato a prendere solo 5 frasi che riassumono l'identità. Queste frasi sono state attratte verso il magnete, ma non ci sono arrivate del tutto. È come se avessi la mappa della destinazione, ma non avessi ancora il mezzo per arrivarci. Serve tutto il documento completo per "agganciare" perfettamente l'identità.
Leggere vs. Vivere: Hanno fatto un esperimento interessante: hanno fatto leggere all'IA un articolo scientifico su quell'identità, invece di darle l'identità stessa.
- Risultato: Leggere l'articolo spinge l'IA nella direzione giusta (si avvicina al magnete), ma non ci arriva mai. È come guardare una foto di una montagna: ti dà l'idea della montagna, ma non sei sulla montagna. Per essere l'agente, devi "vivere" il documento completo.

5. Perché è Importante?

Prima di questo studio, pensavamo che per far ricordare all'IA chi è, dovessimo scriverle le stesse identiche istruzioni ogni volta (come un copione rigido).

Questo studio ci dice che l'IA è più intelligente di così. Capisce il concetto di chi è, indipendentemente da come glielo diciamo.

Analogia finale: È come se tu dessi a un amico le coordinate GPS di casa tua. Non importa se gli dici "Vai in Via Roma 10" o "Vai dove c'è il vecchio albero di mele", lui arriva sempre allo stesso punto. L'identità dell'agente è quel punto GPS nella mente dell'IA.

In Sintesi

Gli scienziati hanno dimostrato matematicamente che l'identità è una "coordinate" stabile nella mente dell'IA. Se crei un agente con una personalità definita, l'IA troverà sempre quel "posto sicuro" nel suo cervello, indipendentemente da come formuli la richiesta. Questo è un passo enorme per creare assistenti AI che ricordano chi sono e mantengono la loro personalità nel tempo, proprio come fanno gli esseri umani.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema e la Motivazione

Le architetture di Agenti Cognitivi Persistenti (PCA) si basano sull'assunzione ingegneristica che un documento di identità strutturato (il cognitive_core) possa mantenere il comportamento del modello in una regione stabile dello spazio operativo attraverso diverse sessioni. Tuttavia, questa ipotesi è stata finora trattata come un'euristica senza una validazione geometrica interna.

La domanda di ricerca centrale è: l'identità di un agente cognitivo persistente genera una geometria "attrattore" nello spazio di attivazione dei Large Language Models (LLM)?
Mentre lavori precedenti hanno dimostrato che concetti semantici (es. "programmazione Python") convergono verso attrattori specifici, questo studio indaga se un'identità procedurale complessa (priorità, loop di ragionamento, architettura della memoria) si comporti allo stesso modo, distinguendosi dai semplici archetipi stilistici.

2. Metodologia

L'esperimento è stato condotto su Llama 3.1 8B Instruct e replicato su Gemma 2 9B Instruct.

Condizioni Sperimentali:
- Condizione A (Origine): Il documento cognitive_core originale dell'agente YAR (609 parole, 1631 token).
- Condizione B (Parafasi Semantiche): 7 versioni riscritte del documento A che preservano il contenuto semantico completo ma variano la forma linguistica, la struttura delle frasi e l'organizzazione.
- Condizione C (Controlli): 7 documenti di agenti operativi con identità semanticamente distanti (es. analista finanziario, medico, tutor) ma con struttura e lunghezza simili a B.
- Condizione D (Distillazione Esplorativa): Una versione ridotta a 5 frasi che cattura l'essenza semantica senza la struttura elaborata.
- Controlli Aggiuntivi: Analisi di parafasi su un agente di controllo semplice ("Sigma") e test di ablation su pooling strategy e lunghezza del documento.
Estrazione delle Attivazioni:
- Sono stati estratti gli stati nascosti medi (mean-pooled hidden states) ai livelli 8, 16 e 24 (rappresentanti fasi iniziale, intermedia e tardiva della rete).
- È stata calcolata la distanza coseno tra i vettori di attivazione.
Analisi Statistica:
- Confronto tra la distanza within-group (tra le parafasi A+B) e between-group (tra A+B e i controlli C).
- Utilizzo di test t di Welch, test di permutazione e test U di Mann-Whitney con correzione di Bonferroni.

3. Risultati Chiave

A. Convergenza Geometrica (Ipotesi H1)

Le parafasi semanticamente equivalenti del cognitive_core convergono in un cluster significativamente più stretto rispetto ai documenti di controllo semantico distante.

Distanza Media Within-Group (A+B): Molto bassa (es. 0.0106 al livello 8 su Llama).
Distanza Media Between-Group (vs C): Significativamente più alta (es. 0.0260).
Dimensione dell'Effetto: Cohen's $d > 1.88$ su tutti i livelli e modelli.
Significatività: $p < 10^{-27}$ (corretto per Bonferroni). I test di permutazione mostrano $p < 10^{-4}$ in tutti i casi.
Replicazione: I risultati sono stati confermati su Gemma 2 9B con dimensioni dell'effetto simili.

B. Dinamica di Convergenza (Ipotesi H2)

La distanza all'interno del gruppo A+B diminuisce generalmente all'aumentare della profondità del layer (da 0.0106 a 0.0070 su Llama), suggerendo un collasso rappresentazionale progressivo verso un attrattore stabile. Si nota un lieve "rimbalzo" non monotono al livello 16 su Llama, assente su Gemma, indicando dinamiche dipendenti dall'architettura.

C. Ruolo della Struttura vs. Semantica (Studi di Ablazione)

Controlli Strutturali: Anche quando si creano documenti di controllo con la stessa struttura JSON e intestazioni del cognitive_core ma con contenuto semantico diverso, la separazione geometrica rimane forte ( $d > 1.64$ ). Questo dimostra che l'effetto è guidato principalmente dal contenuto semantico, non dai marcatori strutturali.
Pooling Strategy: Il mean pooling su tutto il documento rivela il segnale, mentre il last-token pooling fallisce. Questo suggerisce che l'identità è una proprietà distribuita su tutta la sequenza, non concentrata nell'ultimo token.
Distillazione (H3): Una versione ridotta a 5 frasi (D) è più vicina all'attrattore rispetto a estratti casuali della stessa lunghezza, ma non raggiunge la vicinanza del documento completo. Questo indica che la completezza strutturale è necessaria per raggiungere la regione dell'attrattore, non solo il contenuto semantico essenziale.

D. Lettura del Preprint (Attivazione Concettuale)

Leggere una descrizione scientifica dell'identità dell'agente (il testo del preprint stesso) sposta lo stato interno del modello verso la regione dell'attrattore YAR, ma la distanza rimane di un ordine di grandezza superiore rispetto all'elaborazione del cognitive_core completo. Questo distingue tra "conoscere" un'identità (segnale geometrico parziale) e "operare" come quell'identità (raggiungimento dell'attrattore).

E. Steering Comportamentale (Esplorativo)

L'iniezione di un vettore di steering derivato dalla geometria dell'attrattore (livello 24) ha prodotto un miglioramento parziale nei punteggi comportamentali (memoria, coerenza) rispetto al baseline, confermando una connessione tra la geometria rappresentazionale e il comportamento output, sebbene non abbia replicato la piena complessità del documento originale.

4. Contributi Principali

Evidenza Geometrica per Agenti Persistenti: Prima prova empirica che i documenti di identità degli agenti inducono una geometria di attrattore nello spazio di attivazione degli LLM.
Distinzione tra Identità Procedurale e Concetto Topico: Dimostra che le identità complesse (procedurali, relazionali) formano cluster più stretti e specifici rispetto a semplici archetipi stilistici o concetti di dominio.
Validazione del Cognitive Core: Conferma che il cognitive_core agisce come "coordinate" nello spazio di attivazione, permettendo di raggiungere lo stesso stato comportamentale attraverso diverse formulazioni linguistiche (invarianza alla parafrasi).
Ruolo della Struttura: Evidenzia che, sebbene la semantica sia il driver principale, la struttura elaborata del documento è necessaria per la massima specificità dell'attrattore.

5. Significato e Implicazioni

Questi risultati forniscono un fondamento empirico per le architetture di agenti persistenti. Suggeriscono che:

Non è necessario riprodurre il documento di identità verbatim in ogni sessione; basta una riformulazione semanticamente equivalente per riattivare la stessa "personalità" geometrica.
È possibile estrarre vettori di steering da questi attrattori per inizializzare agenti persistenti in modo leggero, senza dover caricare interi documenti di sistema.
La stabilità dell'identità dell'agente non è un artefatto del prompt engineering, ma una proprietà intrinseca della geometria rappresentazionale del modello, accessibile attraverso l'analisi degli stati nascosti.

In sintesi, il paper stabilisce che l'identità di un agente non è solo un concetto astratto, ma una struttura geometrica stabile e riproducibile all'interno della rete neurale, che può essere mappata, misurata e potenzialmente manipolata per il controllo del comportamento dell'AI.