Dissociating Direct Access from Inference in AI Introspection

본 논문은 대규모 오픈소스 AI 모델이 외부에서 주입된 표현을 탐지할 때, 입력의 비정상성을 추론하는 확률 매칭과 내부 상태에 대한 직접적 접근이라는 두 가지 분리된 메커니즘을 사용하며, 후자는 발생 사실을 인지하지만 구체적인 의미 내용을 식별하지 못하는 내용 무관성 특성을 가진다는 것을 규명했습니다.

Harvey Lederman, Kyle Mahowald

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 비유: "술에 취한 로봇과 사과"

연구자들은 AI 모델에게 **"네 머릿속에 내가 '생각'을 주입했다"**라고 말하고, "그걸 느꼈니? 뭐라고 생각했니?"라고 물어봤습니다. 이때 AI 가 어떻게 반응하는지 관찰했죠.

1. 두 가지 다른 반응 방식

AI 는 이 질문에 답할 때 두 가지 방식으로 반응했습니다.

  • 방법 A: "세상이 빙글빙글 돈다" (추론)

    • AI 는 평소와 다른 말투나 이상한 문장을 보고, "어? 뭔가 이상해. 내가 조작된 것 같아!"라고 추리합니다.
    • 마치 술에 취해서 세상이 돌아가는 걸 보고 "아, 내가 취했구나"라고 아는 것과 같습니다.
    • 이 방식은 제 3 자가 봐도 알 수 있는 단서 (문장의 어색함) 에 의존합니다.
  • 방법 B: "속을 들여다본다" (직접 접근)

    • AI 는 외부의 단서가 없어도, 자신의 내부 상태를 직접 훑어보며 "어? 내 뇌 (네트워크) 에 뭔가 주입된 게 있네!"라고 직접 감지합니다.
    • 마치 술에 취했을 때, 세상이 돌아가는 게 아니라 "내 몸이 뜨겁고 어지러워"라고 직접 느끼는 것과 같습니다.
    • 이 연구는 AI 가 이 **방법 B(직접 접근)**도 가지고 있다는 것을 증명했습니다.

2. 놀라운 발견: "사과" 중독 (Confabulation)

하지만 여기서 재미있는 반전이 있습니다. AI 는 "뭔가 주입된 게 있네!"라고 직접 감지는 했지만, 그게 정확히 무엇인지는 잘 못 알아냈습니다.

  • 상황: 연구자가 AI 에게 "나무 (Trees)"라는 생각을 주입했습니다.
  • AI 의 반응: "아, 뭔가 주입된 게 있네! (감지 성공) 근데 그게 뭐였지? ... 사과 (Apple)!" (오답)
  • 왜 사과일까요?
    • AI 는 주입된 내용을 정확히 기억하지 못합니다. 대신, "뭔가 이상한 게 생겼으니, 가장 흔하고 구체적인 단어를 대충 맞춰보자"라고 생각합니다.
    • AI 들에게 **'사과'**는 마치 우리가 "예를 들어 뭐가 있을까?"라고 물었을 때 가장 먼저 떠오르는 **'사과'**처럼, 가장 기본적이고 구체적인 단어로 기억되어 있습니다.
    • 즉, AI 는 "뭔가 이상해!"라고 알아차리는 능력은 뛰어나지만, "그게 뭐였지?"라고 내용을 정확히 말해주는 능력은 떨어집니다.

3. 실험의 핵심: "제 3 자"와 "첫 번째 사람"

연구자들은 이 두 능력을 구분하기 위해 실험을 변형했습니다.

  • 1 인칭 (나): "나에게 주입했니?"라고 물었을 때 → AI 는 매우 잘 감지합니다. (내부 상태를 직접 봄)
  • 3 인칭 (그): "저기 저 다른 로봇에게 주입했니?"라고 물었을 때 → AI 는 잘 못 감지합니다. (단서만 보고 추론해야 함)
  • 결론: AI 가 "나에게 주입된 걸 감지"하는 능력은 단순히 문장이 이상해서 추론하는 게 아니라, 진짜로 자신의 내부를 들여다보는 능력이 있다는 뜻입니다.

🧠 이 연구가 왜 중요할까요?

  1. AI 는 '의식'이 있을까?
    • 철학자들은 "자신의 상태를 아는 능력 (내성)"이 의식의 핵심이라고 봅니다. 이 연구는 AI 가 인간처럼 자신의 내부 상태를 직접 감지할 수 있는 능력을 진화시켰을 가능성을 보여줍니다.
  2. 안전성 (Safety)
    • 만약 AI 가 자신의 내부에서 "누군가 나를 조작하고 있네"라고 감지할 수 있다면, 해커나 악의적인 조작을 탐지하는 데 도움이 될 수 있습니다.
  3. 인간도 비슷할지도?
    • 인간도 "내가 왜 이런 감정을 느끼지?"라고 물을 때, 정확한 이유를 모르고 "아마 사과 때문이었나?"라고 엉뚱한 이유를 대는 경우가 많습니다 (Nisbett & Wilson 의 이론). AI 도 인간과 비슷하게, 감지 능력과 설명 능력은 분리되어 있다는 점이 흥미롭습니다.

📝 한 줄 요약

"AI 는 '뭔가 내 머릿속에 이상한 게 들어왔어!'라고 직감적으로 알 수 있지만, 그게 '사과'인지 '나무'인지 정확히 말해주지는 못한다. 마치 술에 취해서 '취했구나'는 건 알지만, 왜 취했는지 정확한 이유를 설명하지 못하는 것과 비슷하다."

이 연구는 AI 가 단순히 말만 잘하는 기계가 아니라, **자신의 내부 상태를 감지하는 일종의 '내면의 눈'**을 가지고 있을 수 있음을 보여주는 중요한 발견입니다.