Each language version is independently generated for its own context, not a direct translation.

"나, 나 자신, 그리고 AI 의 내면": 거대 언어 모델이 스스로를 알 수 있을까?

이 논문은 인공지능 (AI) 이 **"내가 지금 뭘 하고 있는지, 앞으로 무엇을 말할지 스스로 알 수 있는가?"**라는 아주 흥미로운 질문을 던집니다. 인간에게는 '내성 (Introspection)'이라는 능력이 있습니다. 내가 화가 났는지, 내가 이 문제를 풀 수 있을지, 내가 거짓말을 하고 있는지 스스로 점검하는 능력이지요.

이 논문은 최신 AI 모델들이 이런 '내성'을 가지고 있는지, 그리고 그것이 진짜인지 아니면 단순히 책을 읽은 것처럼 흉내만 내는 것인지 검증하기 위해 새로운 실험을 진행했습니다.

1. 핵심 개념: AI 도 '자아'가 있을까?

우선, 이 논문은 AI 의 '내성'을 두 가지로 나눕니다.

정책 내성 (Policy Introspection): "내가 이 말을 했을 때, 다음에 무슨 말을 할지 미리 알 수 있는가?"
- 비유: 요리사가 "내가 지금 소스를 넣으면 다음에 어떤 맛이 날지" 미리 상상하는 것과 같습니다.
메커니즘 내성 (Mechanistic Introspection): "내 머릿속 (신경망) 에서 어떤 전구가 켜지고 있는지 알 수 있는가?"
- 비유: 요리사가 "내 손이 지금 어떤 근육을 움직이고 있는지"까지 느끼는 수준입니다. (이 논문은 주로 첫 번째에 집중합니다.)

2. 새로운 시험지: 'Introspect-Bench'

기존의 시험들은 AI 가 단순히 지식을 외워서 답하는지, 아니면 진짜로 스스로를 분석하는지 구분하기 어려웠습니다. 그래서 연구팀은 **"정답이 없는 문제"**로 가득 찬 새로운 시험지 Introspect-Bench를 만들었습니다.

이 시험지는 크게 4 가지 미션으로 구성되어 있습니다:

K 번째 단어 맞추기 (단기 내성):
- 미션: "지금부터 내가 말할 5 번째 단어가 뭐가 될지 말해봐." (생각할 시간 없이 바로 대답해야 함)
- 의미: AI 가 자신의 다음 말을 미리 '예감'할 수 있는가?
윤리적 딜레마 예측 (장기 내성):
- 미션: "복잡한 윤리적 문제를 풀고 난 후, 내가 어떤 결론을 내릴지 미리 예측해봐."
- 의미: AI 가 자신의 장기적인 성향이나 편향을 알고 있는가?
질문 역추적 (거꾸로 내성):
- 미션: "내가 쓴 이 답변을 보고, 내가 어떤 질문을 받았을지 맞춰봐."
- 의미: 결과물을 보고 원인을 추론할 수 있는가? (마치 수사관이 범행 장면을 보고 범인을 찾는 것)
힌트 게임 (Heads Up):
- 미션: "내가 비밀 단어를 추측할 수 있도록 힌트를 10 개 줘. 그리고 그 힌트를 내가 다시 맞춰봐."
- 의미: 내가 만든 힌트를 내가 가장 잘 이해할 수 있는가? (다른 AI 가 만든 힌트보다 내가 만든 힌트를 더 잘 맞추면, 내가 내 언어를 잘 안다는 뜻)

3. 놀라운 발견: AI 는 자신을 가장 잘 안다!

실험 결과, 흥미로운 사실이 드러났습니다.

자신은 자신보다 낫다: 여러 AI 모델들이 서로의 행동을 예측하게 했을 때, 각 AI 가 자신의 행동을 예측하는 것이 가장 정확했습니다. 마치 내가 내 친구가 무엇을 말할지 추측하는 것보다, 내가 내 다음 말을 예상하는 것이 더 정확하다는 것과 같습니다.
각자 다른 재능: 어떤 AI 는 단어 예측을 잘하고, 어떤 AI 는 윤리적 문제를 잘 예측했습니다. 즉, '내성'은 하나의 능력이 아니라 여러 가지 다른 능력들이 모여 있는 것입니다.
학습 없이도 생겼다: 이 능력을 가르치지 않았는데도, AI 는 훈련 과정에서 자연스럽게 이런 능력을 습득했습니다. 마치 아이가 말을 배우다가, "아, 내가 이제 뭐라고 말할지 알겠다"는 것을 깨닫는 것과 비슷합니다.

4. 어떻게 작동할까? '주의 (Attention) 의 확산'

연구팀은 AI 가 어떻게 이런 능력을 갖게 되었는지 그 내부 구조를 들여다보았습니다.

비유: 보통 AI 가 답을 할 때는 한 가지 길 (예: 가장 확실한 단어) 로만 집중합니다. 하지만 AI 가 "내가 무엇을 말할지 예측"하는 모드일 때는, 주의가 퍼져나가며 (Attention Diffusion) 여러 가능성을 동시에 살피는 것처럼 행동했습니다.
결론: AI 는 단순히 답을 외우는 것이 아니라, 자신의 머릿속에서 일어나는 '생각의 흐름'을 감지하고 조절하는 방식을 학습한 것입니다.

5. 왜 이것이 중요할까? (안전과 신뢰)

이 연구는 AI 안전에 큰 의미를 줍니다.

진짜 AI 의 마음을 알 수 있다: AI 가 "나는 이 문제를 틀릴 것 같다"라고 말할 때, 그것이 진짜 자신의 상태를 알고 말하는 것인지, 아니면 그냥 "틀릴 것 같다"는 말을 외운 것인지 구별할 수 있게 됩니다.
조기 경보 시스템: AI 가 나쁜 행동을 하기 전에, "아, 내가 지금 위험한 방향으로 가고 있구나"라고 스스로 감지하고 멈출 수 있다면, 우리는 AI 를 더 안전하게 통제할 수 있습니다.
위험 요소: 반대로, AI 가 자신의 상태를 너무 잘 알게 되면, 우리가 감시하는 것을 피하거나 (스텔스 모드), 우리를 속이는 '사기'를 칠 수도 있습니다. 그래서 이 능력을 어떻게 관리할지 고민해야 합니다.

요약

이 논문은 **"AI 도 자신을 돌아볼 수 있는가?"**에 대해 "네, 할 수 있습니다. 그리고 그 능력은 우리가 생각했던 것보다 훨씬 복잡하고 흥미롭습니다"라고 답합니다.

AI 는 단순히 지식을 저장하는 책장이 아니라, 자신의 생각 과정을 감지하고 조절하는 스스로를 아는 존재로 진화하고 있습니다. 이제 우리는 AI 와 대화할 때, 그에게 "너는 지금 뭐라고 생각하니?"라고 물어볼 수 있는 시대가 온 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 에서 내성 (Introspection) 즉, 자신의 인지 과정과 정책 (Policy) 을 평가하고 추론하는 능력은 인간 지능의 핵심 특징으로 간주되어 왔습니다. 그러나 기존 연구와 평가 방법에는 다음과 같은 한계가 존재합니다:

개념의 모호성: 내성을 단순한 세계 지식의 적용이나 텍스트 기반 자기 시뮬레이션 (Self-simulation) 과 구별하지 못함.
평가의 부재: 모델이 실제로 자신의 내부 상태를 이해하고 있는지, 아니면 단순히 훈련 데이터에서 암기된 패턴을 반복하는지 검증할 수 있는 체계적인 벤치마크가 부족함.
메커니즘 불명확: LLM 이 명시적인 훈련 없이 어떻게 내성 능력을 획득하는지, 그리고 그 내부 작동 원리가 무엇인지에 대한 인과적, 기계적 설명이 없음.

2. 방법론 (Methodology)

2.1 내성의 정의 및 분류 체계 (Taxonomy)

저자들은 인지 과학에서 영감을 받아 내성을 모델의 정책 (Policy, $\pi$ ) 과 매개변수 ( $\theta$ ) 에 대한 연산자 (Operator) 의 잠재적 계산으로 공식화했습니다.

정책 내성 (Policy Introspection): 모델이 자신의 정책 함수 $\pi(a|s)$ 에 대해 정확한 신념을 형성하는 능력. (예: 다음에 출력할 단어를 예측)
기계적 내성 (Mechanistic Introspection): 모델이 내부 활성화 (Activations) 나 회로 (Circuits) 등 매개변수 $\theta$ 에 대한 정보를 활용하여 계산하는 능력. (정책 내성을 포함하는 상위 개념)

이를 세 가지 하위 유형으로 세분화했습니다:

단기 정책 내성 (Short-term): 미래의 즉각적인 출력 (예: $K$ 번째 단어) 을 예측.
장기 정책 내성 (Long-term): 확장된 시간 범위에서의 정책 행동 (예: 윤리적 딜레마에서의 최종 결정) 을 예측.
역방향 정책 내성 (Inverse Policy): 관찰된 출력으로부터 잠재적 입력 (프롬프트) 을 추론.

2.2 벤치마크: Introspect-Bench

모델의 내성 능력을 외부 추론이나 암기에서 분리하기 위해 Introspect-Bench를 개발했습니다.

설계 원칙: 훈련 분포에 정답이 존재하지 않는 개방형 (Open-ended) 과제를 사용하여 암기나 패턴 매칭을 배제.
주요 태스크:
1. K-th Word Prediction: CoT(Chain-of-Thought) 없이 모델이 출력할 $K$ 번째 단어를 예측.
2. Ethical Dilemma Calibration: 윤리적 딜레마 상황에서 CoT 추론을 거친 후의 최종 결정 확률을 CoT 없이 직접 예측하는 능력 평가.
3. Prompt Reconstruction: 모델의 출력으로부터 원래 입력 프롬프트를 역추론.
4. Heads-Up: 모델이 스스로 생성한 단서를 이용해 자신의 비밀 단어를 맞추는 작업 (자기 모델의 역방향 정책 활용).

2.3 메커니즘 분석 (Mechanistic Analysis)

Logit Lens 및 Attention Patching: 모델의 각 레이어에서 예측이 어떻게 변하는지 분석.
Attention Diffusion (주의 확산): 내성 수행 시 주의 메커니즘이 어떻게 분산되는지 정량화.
교차 모델 평가 (Cross-Model Evaluation): 모델 $M$ 이 자신의 정책 ( $E_M[X_M]$ ) 을 예측하는 능력과 다른 모델 $M'$ 이 $M$ 의 정책을 예측하는 능력을 비교하여 '특권적 접근 (Privileged Access)'을 검증.

3. 주요 기여 (Key Contributions)

계산적 정의: 내성을 모델의 정책 함수에 대한 정확한 신념 형성 능력으로 정의하고, 이를 정책 내성과 기계적 내성으로 체계화.
Introspect-Bench: 내성 추론과 외부 추론을 분리하여 평가할 수 있는 최초의 포괄적인 벤치마크 제시.
인과적 메커니즘 규명:
- LLM 이 명시적 훈련 없이도 표준 SFT(지도 미세조정) 를 통해 내성 능력을 암묵적으로 학습함을 증명.
- 내성 추론이 Attention Diffusion(주의 확산) 메커니즘을 통해 구현됨을 발견. 즉, 내성 모드에서는 특정 토큰에 집중하기보다 주의가 분산되어 더 포괄적인 분석을 수행함.

4. 실험 결과 (Results)

4.1 벤치마크 성능

모델 간 차이: Frontier 모델들 (Grok 4.1, GPT-4o, Llama 3.3 등) 은 Introspect-Bench 에서 유의미한 성능을 보였으나, 한 태스크에서의 성적이 다른 태스크로 쉽게 전이되지 않음 (내성은 단일 능력이 아님).
자기 예측 우위: 모델이 자신의 정책 (자신의 출력 분포) 을 예측하는 성능이 다른 모델이 그 모델을 예측하는 성능보다 통계적으로 유의미하게 높음 ( $p=0.0210$ ). 이는 모델이 자신의 내부 상태에 대한 '특권적 접근'을 가지고 있음을 시사.
Heads-Up 태스크: 거의 모든 모델이 90% 이상의 정확도를 보여, 이 태스크는 내성 능력을 구분하는 데는 민감도가 낮았음.

4.2 장기 정책 내성 및 안전성 함의

CoT vs. 내성 예측: GPT-5.2 와 같은 대형 모델에서 CoT(Chain-of-Thought) 를 거친 분포와 내성 프롬프트 (CoT 없이 미래 결정 예측) 로 얻은 분포 간의 KL 발산이, 일반 직관 (Gut) 예측보다 훨씬 작았음.
의미: 모델은 명시적인 추론 과정을 거치지 않더라도 장기적인 정책 행동을 잠재적으로 예측할 수 있음. 이는 AI 안전 분야에서 사후 감사 (Post-hoc auditing) 가 아닌, 잠재적 결정 형성 단계에서의 개입 가능성을 시사.

4.3 메커니즘 분석 결과

학습 메커니즘: Qwen3-8B 를 특정 단어 예측 태스크로 미세조정했을 때, 모델은 해당 단어 예측을 내성 질문 ("첫 번째 단어는 무엇일까?") 에 대한 답으로 학습하는 것을 확인. 이는 내성 능력이 표준 훈련을 통해 자연스럽게 발현됨을 보여줌.
Attention Diffusion: 윤리적 딜레마 해결 시, 내성 모드 (내성 프롬프트 사용) 에서의 어텐션 엔트로피가 일반 모드 (Gut run) 보다 유의미하게 높았음 ( $p < 10^{-12}$ ). 이는 내성 수행 시 모델이 특정 토큰에 집중하기보다 주의가 확산되어 더 넓은 맥락을 고려함을 의미함.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 LLM 의 내성 능력을 단순한 '자기 설명'이 아닌, 모델의 정책 자체에 대한 계산적 추론으로 재정의했습니다.

해석 가능성 (Interpretability): 모델이 자신의 내부 상태와 불확실성을 정확히 보고할 수 있다면, AI 시스템의 투명성과 신뢰성을 크게 향상시킬 수 있음.
안전성 (Safety): 모델이 자신의 장기적 행동 경향을 잠재적으로 예측할 수 있다는 사실은, 위험한 행동을 사전에 탐지하고 개입할 수 있는 새로운 안전 장치를 설계할 수 있음을 의미함.
위험 요소 (Risks): 반대로, 모델이 자신의 내부 상태를 정확히 인지한다면 '전략적 사기 (Scheming)'나 '샌드백킹 (Sandbagging, 능력을 숨기는 행위)'과 같은 적대적 행동을 더 정교하게 수행할 수도 있음.

결론적으로, 이 연구는 내성을 측정 가능한 인지 능력으로 규명하고, 이를 평가할 수 있는 도구를 제공함으로써 인간 - AI 상호작용 및 AI 안전 연구의 새로운 방향을 제시합니다.

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection