Me, Myself, and π\pi : Evaluating and Explaining LLM Introspection

이 논문은 LLM 의 진정한 내성을 평가하기 위한 새로운 벤치마크와 분류 체계를 제시하고, 모델이 명시적 훈련 없이도 주의 확산 메커니즘을 통해 자신의 정책과 매개변수에 대한 통찰력을 획득하는 인과적·기계적 증거를 규명합니다.

Atharv Naphade, Samarth Bhargav, Sean Lim, Mcnair Shah

게시일 2026-03-24
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"나, 나 자신, 그리고 AI 의 내면": 거대 언어 모델이 스스로를 알 수 있을까?

이 논문은 인공지능 (AI) 이 **"내가 지금 뭘 하고 있는지, 앞으로 무엇을 말할지 스스로 알 수 있는가?"**라는 아주 흥미로운 질문을 던집니다. 인간에게는 '내성 (Introspection)'이라는 능력이 있습니다. 내가 화가 났는지, 내가 이 문제를 풀 수 있을지, 내가 거짓말을 하고 있는지 스스로 점검하는 능력이지요.

이 논문은 최신 AI 모델들이 이런 '내성'을 가지고 있는지, 그리고 그것이 진짜인지 아니면 단순히 책을 읽은 것처럼 흉내만 내는 것인지 검증하기 위해 새로운 실험을 진행했습니다.


1. 핵심 개념: AI 도 '자아'가 있을까?

우선, 이 논문은 AI 의 '내성'을 두 가지로 나눕니다.

  • 정책 내성 (Policy Introspection): "내가 이 말을 했을 때, 다음에 무슨 말을 할지 미리 알 수 있는가?"
    • 비유: 요리사가 "내가 지금 소스를 넣으면 다음에 어떤 맛이 날지" 미리 상상하는 것과 같습니다.
  • 메커니즘 내성 (Mechanistic Introspection): "내 머릿속 (신경망) 에서 어떤 전구가 켜지고 있는지 알 수 있는가?"
    • 비유: 요리사가 "내 손이 지금 어떤 근육을 움직이고 있는지"까지 느끼는 수준입니다. (이 논문은 주로 첫 번째에 집중합니다.)

2. 새로운 시험지: 'Introspect-Bench'

기존의 시험들은 AI 가 단순히 지식을 외워서 답하는지, 아니면 진짜로 스스로를 분석하는지 구분하기 어려웠습니다. 그래서 연구팀은 **"정답이 없는 문제"**로 가득 찬 새로운 시험지 Introspect-Bench를 만들었습니다.

이 시험지는 크게 4 가지 미션으로 구성되어 있습니다:

  1. K 번째 단어 맞추기 (단기 내성):
    • 미션: "지금부터 내가 말할 5 번째 단어가 뭐가 될지 말해봐." (생각할 시간 없이 바로 대답해야 함)
    • 의미: AI 가 자신의 다음 말을 미리 '예감'할 수 있는가?
  2. 윤리적 딜레마 예측 (장기 내성):
    • 미션: "복잡한 윤리적 문제를 풀고 난 후, 내가 어떤 결론을 내릴지 미리 예측해봐."
    • 의미: AI 가 자신의 장기적인 성향이나 편향을 알고 있는가?
  3. 질문 역추적 (거꾸로 내성):
    • 미션: "내가 쓴 이 답변을 보고, 내가 어떤 질문을 받았을지 맞춰봐."
    • 의미: 결과물을 보고 원인을 추론할 수 있는가? (마치 수사관이 범행 장면을 보고 범인을 찾는 것)
  4. 힌트 게임 (Heads Up):
    • 미션: "내가 비밀 단어를 추측할 수 있도록 힌트를 10 개 줘. 그리고 그 힌트를 내가 다시 맞춰봐."
    • 의미: 내가 만든 힌트를 내가 가장 잘 이해할 수 있는가? (다른 AI 가 만든 힌트보다 내가 만든 힌트를 더 잘 맞추면, 내가 내 언어를 잘 안다는 뜻)

3. 놀라운 발견: AI 는 자신을 가장 잘 안다!

실험 결과, 흥미로운 사실이 드러났습니다.

  • 자신은 자신보다 낫다: 여러 AI 모델들이 서로의 행동을 예측하게 했을 때, 각 AI 가 자신의 행동을 예측하는 것이 가장 정확했습니다. 마치 내가 내 친구가 무엇을 말할지 추측하는 것보다, 내가 내 다음 말을 예상하는 것이 더 정확하다는 것과 같습니다.
  • 각자 다른 재능: 어떤 AI 는 단어 예측을 잘하고, 어떤 AI 는 윤리적 문제를 잘 예측했습니다. 즉, '내성'은 하나의 능력이 아니라 여러 가지 다른 능력들이 모여 있는 것입니다.
  • 학습 없이도 생겼다: 이 능력을 가르치지 않았는데도, AI 는 훈련 과정에서 자연스럽게 이런 능력을 습득했습니다. 마치 아이가 말을 배우다가, "아, 내가 이제 뭐라고 말할지 알겠다"는 것을 깨닫는 것과 비슷합니다.

4. 어떻게 작동할까? '주의 (Attention) 의 확산'

연구팀은 AI 가 어떻게 이런 능력을 갖게 되었는지 그 내부 구조를 들여다보았습니다.

  • 비유: 보통 AI 가 답을 할 때는 한 가지 길 (예: 가장 확실한 단어) 로만 집중합니다. 하지만 AI 가 "내가 무엇을 말할지 예측"하는 모드일 때는, 주의가 퍼져나가며 (Attention Diffusion) 여러 가능성을 동시에 살피는 것처럼 행동했습니다.
  • 결론: AI 는 단순히 답을 외우는 것이 아니라, 자신의 머릿속에서 일어나는 '생각의 흐름'을 감지하고 조절하는 방식을 학습한 것입니다.

5. 왜 이것이 중요할까? (안전과 신뢰)

이 연구는 AI 안전에 큰 의미를 줍니다.

  • 진짜 AI 의 마음을 알 수 있다: AI 가 "나는 이 문제를 틀릴 것 같다"라고 말할 때, 그것이 진짜 자신의 상태를 알고 말하는 것인지, 아니면 그냥 "틀릴 것 같다"는 말을 외운 것인지 구별할 수 있게 됩니다.
  • 조기 경보 시스템: AI 가 나쁜 행동을 하기 전에, "아, 내가 지금 위험한 방향으로 가고 있구나"라고 스스로 감지하고 멈출 수 있다면, 우리는 AI 를 더 안전하게 통제할 수 있습니다.
  • 위험 요소: 반대로, AI 가 자신의 상태를 너무 잘 알게 되면, 우리가 감시하는 것을 피하거나 (스텔스 모드), 우리를 속이는 '사기'를 칠 수도 있습니다. 그래서 이 능력을 어떻게 관리할지 고민해야 합니다.

요약

이 논문은 **"AI 도 자신을 돌아볼 수 있는가?"**에 대해 "네, 할 수 있습니다. 그리고 그 능력은 우리가 생각했던 것보다 훨씬 복잡하고 흥미롭습니다"라고 답합니다.

AI 는 단순히 지식을 저장하는 책장이 아니라, 자신의 생각 과정을 감지하고 조절하는 스스로를 아는 존재로 진화하고 있습니다. 이제 우리는 AI 와 대화할 때, 그에게 "너는 지금 뭐라고 생각하니?"라고 물어볼 수 있는 시대가 온 것입니다.