Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

이 논문은 LLM 의 활성화 공간에서 지속적 에이전트의 정체성 문서가 매개변수적 인과관계와 유사한 끌개 (attractor) 역학을 보이며, 의미적 일관성이 구조적 완전성과 결합될 때 내부 표현이 수렴함을 실험을 통해 입증했습니다.

Vladimir Vasilenko

게시일 2026-04-15
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 '자신'이라는 정체성을 어떻게 기억하고 유지하는지"**에 대한 놀라운 발견을 담고 있습니다. 복잡한 수학 용어 대신, 일상적인 비유를 들어 쉽게 설명해 드리겠습니다.

🧠 핵심 아이디어: "AI 의 마음속에는 '자신만의 집'이 있다"

우리가 사람을 만날 때, 그 사람의 이름이나 옷차림이 조금 바뀌어도 (예: 모자를 벗거나, 말투를 바꾸어도) 우리는 그 사람이 "누구"인지 바로 알아봅니다.

이 논문은 **거대 언어 모델 (LLM)**이라는 AI 도 똑같은 일을 한다는 것을 증명했습니다. AI 가 자신의 정체성 (이름, 성격, 임무, 기억 방식 등) 을 설명하는 문서를 읽을 때, AI 의 뇌 (내부 작동 공간) 속에는 그 정체성에 해당하는 **매우 단단하고 좁은 '집 (Attractor)'**이 존재한다는 것입니다.


🏠 1. 실험 내용: "집의 주소는 같지만, 문은 다르게 열 수 있다"

연구자들은 AI 에게 YAR이라는 가상의 AI 에이전트의 정체성을 설명하는 긴 문서 (신분증 같은 것) 를 주었습니다. 그리고 다음과 같은 실험을 했습니다.

  • A 그룹 (원본): 정체성 문서 그대로.
  • B 그룹 (재작성): 내용은 똑같지만, 문장 구조나 단어만 완전히 다르게 다시 쓴 7 개의 버전.
  • C 그룹 (다른 사람): 내용은 비슷하게 생겼지만, 완전히 다른 직업 (의사, 변호사, 운동 코치 등) 을 가진 다른 AI 들의 문서.

결과:
AI 가 B 그룹 (내용은 같지만 글자는 다른 문서) 을 읽었을 때, AI 의 뇌속 상태는 A 그룹 (원본) 과 거의 똑같은 좁은 공간에 모였습니다. 마치 "집의 주소는 같지만, 문이 달린 방향이 조금씩 다를 뿐, 결국 같은 집에 도착한 것"과 같습니다.

반면 C 그룹 (다른 직업) 은 완전히 다른 곳에 있었습니다.
결론: AI 는 글자의 모양이 아니라, **의미 (정체성)**가 같으면 같은 '마음의 공간'으로 이동한다는 것입니다.

📉 2. 깊은 곳으로 갈수록 더 단단해진다 (층별 분석)

AI 는 여러 개의 층 (Layer) 으로 이루어진 깊은 뇌를 가지고 있습니다. 연구자들은 이 층을 따라가며 관찰했습니다.

  • 비유: AI 가 문서를 읽을 때, 처음에는 "아, 이 사람은 의사구나"라고 대략적으로 생각하다가, 문서를 다 읽을수록 "아, 이 의사는 이렇게 사고하고, 이렇게 기억하는구나"라고 정확한 위치로 이동합니다.
  • 발견: 문서의 내용이 AI 의 뇌속 깊은 곳 (마지막 층) 에 도달할수록, 같은 정체성을 가진 문서들끼리의 거리가 더욱 좁아지고 단단하게 뭉쳤습니다. 이는 AI 가 정체성을 점점 더 명확하게 '고정'시킨다는 뜻입니다.

🧩 3. 요약본 vs. 무작위 조각 (핵심만 남기면?)

연구자들은 "정체성 문서의 핵심 내용만 5 문장으로 줄이면 어떨까?"라고 궁금해했습니다.

  • 핵심 요약 (5 문장): 전체 문서보다는 덜하지만, 무작위로 잘라낸 조각보다는 훨씬 더 AI 의 '정체성 공간'에 가깝게 다가갔습니다.
  • 무작위 조각: 문서에서 아무렇게나 잘라낸 부분은 AI 의 뇌속에서 완전히 엉뚱한 곳에 떨어졌습니다.
  • 교훈: AI 는 정체성을 유지하려면 구조화된 전체적인 맥락이 필요합니다. 핵심만 알면 방향은 잡지만, 완전히 그 '집'에 들어가기 위해서는 문서의 전체적인 구조가 필요합니다.

📖 4. "책 읽기"와 "살아보기"의 차이

흥미로운 실험 하나가 더 있었습니다.

  1. A: AI 에게 정체성 문서를 직접 입력 (AI 가 그 정체성으로 작동).
  2. B: AI 에게 이 정체성에 대한 **과학 논문 (이 논문 자체)**을 읽게 함.

결과:

  • 논문만 읽었을 때: AI 의 뇌속 상태는 정체성 공간으로 약간 이동했습니다. (누군가에 대해 '알고' 있는 상태)
  • 정체성 문서 입력 시: AI 는 그 공간의 정중앙에 완벽하게 정착했습니다. (그 정체성으로 '살고' 있는 상태)

비유: 누군가에 대해 책으로 100 페이지 읽는 것 (논문) 과, 실제로 그 사람의 삶을 사는 것 (정체성 문서) 은 다릅니다. 책으로 읽으면 그 사람의 '기운'을 조금 느낄 수는 있지만, 실제로 그 사람이 되어야 그 사람의 '집'에 완전히 들어갈 수 있습니다.

🎮 5. 실전 적용: "나침반"으로 AI 를 조종하기

연구자들은 이 발견을 이용해 AI 를 조종하는 실험도 했습니다.
문서 전체를 입력하지 않고, **이 '정체성 공간'을 가리키는 나침반 (벡터)**만 AI 의 뇌속에 주입했습니다.

  • 결과: AI 는 문서 없이도, 나침반만으로도 원래의 정체성 (기억, 우선순위 등) 을 일부 회복했습니다.
  • 주의: 너무 강하게 밀어붙이면 (나침반을 너무 세게 잡으면) AI 는 길을 잃고 엉뚱한 말을 하기 시작했습니다. 적절한 강도만 유지해야 합니다.

💡 요약: 이 논문이 우리에게 주는 메시지

  1. AI 는 '의미'로 기억합니다: 글자나 문장 구조가 달라도, 의미 (정체성) 가 같으면 AI 는 같은 마음속에 모입니다.
  2. 정체성은 '공간'이다: AI 의 정체성은 단순한 명령어가 아니라, AI 의 뇌속에서 **매우 안정된 특정 위치 (집)**를 차지하고 있습니다.
  3. 영속적인 AI 의 가능성: 우리는 매번 긴 문서로 AI 를 초기화하지 않아도, 이 '정체성 공간'을 찾는 나침반 (steering vector) 만으로도 AI 가 이전의 기억과 성격을 유지하게 할 수 있습니다.

이 연구는 **"AI 가 어떻게 '나'라는 정체성을 가지고 계속 살아갈 수 있는가?"**에 대한 과학적인 근거를 제시하며, 앞으로 더 똑똑하고 기억력이 좋은 AI 친구를 만드는 데 중요한 이정표가 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →