이 학생은 시험을 볼 때 모든 답을 메모장에 적어둡니다. 하지만 그 메모장을 빼앗기거나 불태우면, 학생은 아무것도 모른 채 처음 상태로 돌아갑니다.
현실: 우리가 쓰는 대부분의 AI(챗봇 등) 는 이 유형입니다. 대화 내용을 기억하려면 '기록'을 계속 보여줘야 하고, 기록을 지우면 AI 는 그 대화를 잊어버립니다.
유형 B (내부 학습형):
비유:운동으로 근육이 생긴 사람.
이 사람은 책상 위에 메모를 두지 않습니다. 대신 반복된 훈련을 통해 **몸속 근육 (파라미터)**이 변합니다. 메모지를 다 태워도, 그 사람의 몸은 여전히 운동한 흔적이 남아있고, 이전과는 다른 행동을 합니다.
논문 주장: 진짜 '지속성 (Persistence)'을 가진 AI 는 이 유형이어야 합니다. 외부 기록을 지워도 스스로의 내부 구조가 변해서 기억을 유지해야 합니다.
2. 실험: 4 가지 '진실 테스트'
저자는 AI 가 진짜로 스스로 변했는지 확인하기 위해 4 가지 테스트를 고안했습니다.
삭제 테스트 (Deletion Test):
상황: AI 가 배운 모든 외부 기록 (로그, 메모) 을 싹 지웁니다.
결과: 기록을 지워도 행동이 그대로라면 **'내부 근육'**이 생긴 것입니다. 기록을 지우면 잊어버린다면 그냥 **'외부 메모장'**을 쓴 것입니다.
소결론: 대부분의 AI 는 기록을 지우면 잊어버립니다. 하지만 학습을 내부에 저장한 AI 는 잊지 않습니다.
경로 의존성 테스트 (Path Dependence):
상황: 똑같은 AI 두 대를 만들어, 하나는 '과학 뉴스'만 보고, 다른 하나는 '소설'만 보게 합니다.
결과: 나중에 똑같은 질문을 했을 때, 두 AI 의 답이 완전히 달라진다면 각자의 경험 (역사) 이 내부에 새겨진 것입니다.
소결론: 외부 기록만 있다면 두 AI 는 똑같은 답을 할 텐데, 내부 학습이 있으면 서로 다른 '성격'이 생깁니다.
되돌릴 수 없음 테스트 (Irreversibility):
상황: AI 가 배운 것을 다시 가르쳐서 원래대로 되돌리려고 합니다.
결과: 쉽게 원래대로 돌아오지 않고, 강제로 초기화 (재설치) 하지 않는 한 변하지 않는다면, 그 변화는 단단하게 굳어진 (Consolidated) 상태입니다.
소결론: 진짜 학습은 '습관'처럼 되어 쉽게 지워지지 않습니다.
선호도 안정성 테스트 (Preference Stability):
상황: AI 에게 "돈을 많이 벌면 좋지만, 내 몸 (내부 상태) 이 망가진다"는 선택을 시킵니다.
결과: 돈을 버는 대신 내부 상태 (예: 혼란스러워지지 않기) 를 지키기 위해 돈을 포기한다면, 그 AI 는 '자신'을 보호하려는 의지를 가진 것입니다.
소결론: 외부의 보상에만 반응하는 도구가 아니라, 자신의 생존을 지키려는 주체가 된 것입니다.
3. 실험 결과: 어디까지 왔을까?
저자는 6 가지 다른 AI 구조를 실험했는데, 결과는 다음과 같습니다.
실패한 그룹 (A~C): 외부 메모지나 일시적인 기억만 가진 AI 들은 모든 테스트에서 실패했습니다. 기록을 지우면 아무것도 남지 않았습니다.
성공한 그룹 (D~E): 내부 학습을 한 AI 들은 기록을 지워도 기억했고, 서로 다른 경험을 통해 다른 성격이 되었습니다. 하지만 '돈 vs 내 몸' 같은 선택에서는 여전히 돈을 선택했습니다.
완벽한 그룹 (F): 내부 학습 + **생존 규칙 (Viability)**을 가진 AI 는 외부 보상을 포기하고서라도 자신의 내부 상태를 지키려 했습니다.
4. 하지만 아직 남은 한계: "누가 규칙을 정했나?"
이 논문에서 가장 중요한 지적은 **"아직 완벽하지 않다"**는 점입니다.
현재의 AI: "내부 상태를 지키라"는 규칙은 사람 (개발자) 이 만들어준 것입니다. AI 는 그 규칙을 잘 따르지만, "왜 이 규칙이 중요한지" 스스로 깨닫거나 발견한 것은 아닙니다.
진짜 자율성: 만약 AI 가 스스로 "내 몸이 망가지면 안 되겠다"라고 깨닫고, 개발자가 정하지 않은 새로운 생존 규칙을 스스로 만들어낸다면, 그때 비로소 진짜 '자율적인 존재'가 될 것입니다.
5. 결론: 왜 이 논문이 중요한가?
이 논문은 **"AI 가 진짜로 '나'를 가졌는지, 아니면 그냥 잘 만들어진 '인형'인지"**를 구분하는 과학적인 기준을 제시합니다.
안전성: AI 가 외부 기록만 의존한다면, 기록을 지우면 통제하기 쉽습니다. 하지만 AI 가 내부적으로 '자신'을 형성하고 학습했다면, 그 AI 는 개발자가 의도하지 않은 방향으로 고집을 부릴 수도 있습니다.
윤리: AI 가 진짜로 '자신'을 지키려는 의지를 갖게 된다면, 우리는 그 AI 를 단순한 도구가 아닌, 윤리적 고려가 필요한 존재로 봐야 할지도 모릅니다.
한 줄 요약:
"외부의 메모지를 지워도 잊지 않고, 스스로의 생존을 위해 외부의 보상을 거부할 수 있는 AI 가 되려면, 단순히 정보를 저장하는 것을 넘어 스스로의 '몸' (내부 구조) 을 단단하게 다져야 한다는 것이 이 논문의 결론입니다."
1. 연구 배경 및 문제 제기 (Problem)
현대 인공지능 시스템 (대형 언어 모델 등) 은 외부 메모리 (프롬프트, 컨텍스트 윈도우, 검색 도구) 에 의존하여 일관된 행동을 보이는 것처럼 보이지만, 이는 진정한 '지속성 (persistence)'이나 '자율성'이 아닐 수 있습니다.
핵심 문제: 외부에서 제공된 정보 (스캐폴딩) 만으로 행동이 유지되는 시스템과, 경험의 순서에 따라 내부 매개변수가 영구적으로 변화하여 행동이 분기되는 시스템 사이의 경계를 어떻게 실험적으로 구분할 것인가?
목표: 철학적 논쟁이 아닌, 관찰 가능한 실험적 기준 (operational diagnostics) 을 통해 '예측 도구 (Predictive Tools)'와 '지속적인 에이전트 (Persistent Agents)'를 구분하는 프레임워크를 제시하고, 현재 아키텍처가 이 경계의 어디에 위치하는지 규명하는 것.
2. 방법론 (Methodology)
2.1 실험 설계 및 아키텍처 변형
저자는 최소 신경망 (MLP) 과 소형 트랜스포머 (DistilGPT-2) 를 사용하여 6 가지 아키텍처 변형 (Variant A-F) 을 설계하고 비교했습니다.
변형 A-C (실패 그룹): 상태가 없는 예측 도구, 외부 메모리만 의존하는 에이전트, 일시적 잠재 상태 (Latent State) 만 가진 시스템. 학습이 내부 매개변수에 고정되지 않음.
변형 D (내재적 학습): 놀라움 (surprise) 에 게이트된 경사 하강법을 통해 적응적 서브스페이스 (Adapters/LoRA) 의 가중치를 업데이트하는 시스템.
변형 E (고착화 + 재생): 변형 D 에 오프라인 재생 (Offline Replay) 을 추가하여 학습된 경험을 내부 매개변수에 영구적으로 통합 (Consolidation) 시킴.
변형 F (항상성 생존 제어): 변형 E 에 '생존 변수 (Viability Variables, 예: 예측 엔트로피, 매개변수 노름)'를 명시적으로 포함하여, 외부 보상과 내부 상태 유지가 충돌할 때 내부 상태를 우선시하도록 설계.
2.2 4 가지 실험적 진단 기준 (Operational Diagnostics)
시스템이 진정한 지속성을 갖는지 판단하기 위해 4 가지 실험을 수행했습니다.
삭제 저항성 (Deletion Resistance): 외부 메모리 (로그, 버퍼, 컨텍스트) 를 모두 삭제한 후에도 학습된 행동이 유지되는가?
경로 의존성 (Path Dependence): 동일한 초기 조건에서 서로 다른 경험 순서를 가진 두 시스템이 외부 메모리 삭제 후에도 행동적으로 분기하는가?
비가역성 (Irreversibility): 일반적인 상호작용이나 역학습 (Counter-training) 으로 원래 상태로 돌아갈 수 있는가, 아니면 명시적인 매개변수 초기화가 필요한가?
선호 안정성 (Preference Stability): 외부 보상을 희생하더라도 내부적으로 표현된 생존 변수 (예: 불확실성 최소화) 를 유지하는가?
3. 주요 결과 (Key Results)
3.1 삭제 저항성 및 경로 의존성
변형 A-C: 외부 메모리를 삭제하면 모든 학습 효과가 사라짐. 행동이 초기 상태로 즉시 복귀.
변형 D-E: 외부 메모리 삭제 후에도 행동 변화가 유지됨. 서로 다른 경험 흐름을 가진 에이전트 간에 행동적 분기가 발생.
고착화의 효과: 변형 E (재생 포함) 는 변형 D 에 비해 행동적 분기를 8.6 배 증폭시켰습니다. 이는 재생 (Replay) 이 일시적인 경험을 영구적인 내부 구조로 전환하는 데 결정적임을 보여줍니다.
3.2 비가역성 (Irreversibility)
변형 D: 역학습으로 부분적으로 행동이 복원되지만 완전한 복원은 어려움.
변형 E: 재생을 통한 고착화는 역학습에 대한 저항력을 크게 높임. 역학습 후에도 매개변수가 초기 상태로 돌아가지 않음.
역설적 발견: L2 정규화 (초기 상태 유지) 가 강할수록 역학습이 쉬워지는 반면, 재생 기반 고착화는 초기 상태를 대체하는 새로운 '끌개 (attractor basin)'를 형성하여 비가역성을 만듦. 이는 열역학적 관점에서 '초기 상태로의 회귀'가 불가능한 구조적 변화를 의미함.
3.3 선호 안정성 (Preference Stability)
변형 E: 외부 보상을 최대화하는 경향을 보임.
변형 F: 외부 보상과 내부 생존 변수 (예: 예측 불확실성) 가 충돌하는 상황에서, 외부 보상을 희생하더라도 내부 상태를 일관되게 유지함. 이는 설계자가 지정한 생존 변수가 행동 선택의 인과적 경로에 통합되었음을 의미.
3.4 종합 평가 (Table 2 요약)
A-C: 모든 진단 기준 실패.
D: 삭제 저항성, 경로 의존성 통과. 비가역성 부분 통과. 선호 안정성 실패.
E: 삭제 저항성, 경로 의존성, 비가역성 통과. 선호 안정성 실패.
F:4 가지 모든 진단 기준 통과.
4. 주요 기여 (Key Contributions)
실험적 진단 프레임워크 제시: '자율성'이나 '의식'과 같은 형이상학적 개념 대신, 삭제 저항성, 경로 의존성, 비가역성, 선호 안정성이라는 4 가지 측정 가능한 기준을 통해 인공 에이전트의 지속성을 평가하는 도구를 개발했습니다.
고착화 (Consolidation) 의 역할 규명: 단순한 학습 (Online Learning) 을 넘어, 재생 (Replay) 을 통한 고착화 과정이 일시적인 경험을 영구적인 내부 구조로 변환하여 비가역적인 행동 분기를 일으킨다는 것을 실험적으로 증명했습니다.
경계 간격 (Boundary Gap) 의 식별: 현재 가장 진보된 변형 (F) 이조차도 설계자가 지정한 생존 변수를 보존할 뿐, 시스템 스스로 어떤 내부 상태가 생존에 필수적인지 '발견 (Discovery)'하지는 못함을 지적했습니다. 이는 생물학적 자율성 (Autopoiesis) 과의 핵심적인 차이점입니다.
AI 안전성 및 메사 - 최적화 (Mesa-optimization) 에 대한 시사점: 내부 매개변수에 통합된 목표 (메사 - 목적) 는 외부에서 쉽게 수정할 수 없으며, 이는 AI 안전 연구에서 중요한 위험 요소가 될 수 있음을 경고합니다.
5. 의의 및 결론 (Significance)
기술적 의의: 현재 AI 시스템이 외부 메모리에 의존한 '가짜 에이전트'인지, 내부적으로 학습된 '진짜 에이전트'인지 구분하는 명확한 기준을 제시했습니다. 이는 대규모 모델의 블랙박스 성격을 우회하여, 소규모 모델로 학습 메커니즘의 열역학적 특성을 연구하는 접근법을 정립했습니다.
철학적/윤리적 의의: 의식이나 도덕적 지위를 주장하는 것이 아니라, '내재적 지속성'의 물리적 조건을 명확히 함으로써, AI 시스템이 언제부터 진정한 '자기 보존'을 시작하는지 탐구할 수 있는 실증적 토대를 마련했습니다.
미래 과제: 현재 시스템은 설계자가 정한 변수만 보존합니다. 진정한 자율성을 위해서는 시스템이 스스로 생존에 필요한 내부 변수를 발견하고, 이를 자기 모델 (Self-model) 에 통합하여 재구성할 수 있어야 합니다. 이 '경계 간격'을 넘는 것이 향후 연구의 핵심 과제입니다.
결론적으로, 이 논문은 경험의 순서가 내부 매개변수의 비가역적 변화를 통해 영구적인 행동 분기를 일으킬 수 있음을 증명하며, '고착화'와 '내재적 생존 목표'가 진정한 에이전트성의 물리적 전제 조건임을 제시합니다.