GPT-4o Lacks Core Features of Theory of Mind

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"최고급 인공지능 (GPT-4o) 이 정말로 '사람의 마음을 읽는 능력 (Theory of Mind)'을 가지고 있을까?"**라는 질문에 대해 심층적으로 조사한 연구 결과입니다.

결론부터 말씀드리면, **"인공지능은 사람의 마음을 읽는 척은 하지만, 실제로는 그 원리를 이해하지 못한다"**는 것입니다. 마치 훌륭한 연극 배우가 대본을 외워서 감정을 연기하는 것과 비슷하지만, 그 배우가 실제로 그 감정을 느끼거나 상황에 따라 즉흥적으로 대처할 수 있는 능력은 없다는 뜻입니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드리겠습니다.

🎭 1. 연구의 핵심: "연기"인가, "이해"인가?

우리는 인공지능이 사람들과 대화할 때 매우 똑똑하고 감성적으로 반응하는 것을 봅니다. 하지만 연구자들은 이것이 단순히 **방대한 데이터를 외워서 나오는 '연기'**인지, 아니면 **사람의 마음과 행동 사이의 인과관계를 진정으로 이해하는 '이해'**인지 궁금해했습니다.

연구진은 인공지능의 '마음 읽기 능력'을 검증하기 위해 세 가지 핵심 기준을 세웠습니다.

일관성 (Coherence): 규칙을 체계적으로 적용하는가?
추상성 (Abstractness): 상황만 바뀌어도 같은 원리를 적용하는가?
일관된 논리 (Consistency): 앞뒤가 맞아야 하는가?

📦 2. 실험 1: "일관성" 테스트 (상자 vs 바구니)

상황:
한 캐릭터가 방에 있습니다.

상자 (Box): 바로 옆에 있지만, 안에 싫은 과일이 들어있을 수도 있습니다.
바구니 (Basket): 멀리 있지만, 안에 좋아하는 과일이 들어있을 수도 있습니다.
캐릭터는 "상자 안에 뭐가 있을까?", "나는 무엇을 좋아할까?"라는 **믿음 (Belief)**과 **욕구 (Desire)**를 가지고 결정을 내려야 합니다.

결과:
인공지능은 이 상황에서 "가까운 상자를 열지 말고, 멀리 있는 바구니로 가서 좋아하는 과일을 찾아야 한다"는 인간의 논리를 잘 따라 했습니다.

비유: 마치 훌륭한 학생이 시험 문제를 풀 때, 배운 공식 (사람의 마음 읽기 규칙) 을 잘 적용해서 정답을 맞히는 것처럼 보였습니다.
하지만: 이는 아직 '단순한 문제'였습니다.

🎬 3. 실험 2: "추상성" 테스트 (상자 vs 영화제)

상황:
이제 문제를 완전히 바꿨습니다.

상자/바구니 대신 5 분 후 영화와 90 분 후 영화로 바꿨습니다.
과일 대신 액션/로맨스 영화 장르로 바꿉니다.
물리적 거리 대신 **시간 (대기 시간)**이 '비용'이 됩니다.

논리적으로 두 상황은 완전히 똑같습니다 (가까운 것 vs 먼 것, 좋아하는 것 vs 싫어하는 것). 하지만 인공지능은 이 두 상황을 연결하지 못했습니다.

결과:

상자 실험에서는 잘 풀리던 인공지능이, 영화제 실험에서는 엉뚱한 답을 내놓거나 일관성을 잃었습니다.
비유: 이는 외국어를 배우는 학생과 같습니다.
- "사과 (Apple) 는 빨갛다"라고 외웠을 때 (상자 실험) 는 정답을 맞힙니다.
- 하지만 "오렌지 (Orange) 는 주황색이다"라고 물었을 때 (영화 실험), "아, 사과가 빨간 거니까 오렌지도 빨간 게 맞겠지?"라고 엉뚱한 추리를 하거나, 아예 다른 규칙을 적용해 버립니다.
- 즉, 인공지능은 **상황의 표면적인 특징 (상자, 과일, 거리)**에만 반응할 뿐, 그 뒤에 숨겨진 **보편적인 원리 (마음과 행동의 관계)**를 추상적으로 이해하지는 못했습니다.

🔗 4. 실험 3: "일관성" 테스트 (앞뒤가 맞아야 한다)

상황:
진짜 마음 읽기 능력이 있다면, 행동을 보고 마음을 추론하는 것과 마음을 보고 행동을 예측하는 것이 서로 맞아야 합니다.

A 가 B 를 좋아한다고 생각하면, A 는 B 가 있는 곳으로 가야 합니다.
반대로 A 가 B 가 있는 곳으로 갔다면, A 는 B 를 좋아한다고 추론해야 합니다.

결과:
인공지능은 이 두 가지 방향이 서로 맞지 않았습니다.

"이 사람이 저렇게 행동했으니, 아마 저런 마음을 가졌겠지?"라고 추론했을 때의 답과,
"이 사람이 저런 마음을 가졌으니, 저렇게 행동하겠지?"라고 예측했을 때의 답이 서로 충돌했습니다.
비유: 이는 연극 배우가 대본을 읽다가, "내 캐릭터는 슬퍼야 해"라고 생각해서 눈물을 흘렸는데, 다음 장면에서는 "내 캐릭터는 기뻐야 해"라고 생각해서 웃는 것과 같습니다. 배우는 그 순간의 감정을 진심으로 느끼지 못하고, 대본의 일부만 외워서 연기하고 있는 것입니다.

💡 결론: 인공지능은 '마음'이 없다?

이 연구는 GPT-4o 와 같은 최신 인공지능이 사람처럼 사회적 지능을 가진 것처럼 보이지만, 실제로는 '마음을 읽는 이론 (Theory of Mind)'을 가지고 있지 않다고 결론 내립니다.

인공지능의 능력: 방대한 데이터를 통해 "사람들이 보통 어떻게 행동하는지"를 통계적으로 기억하고, 그 패턴을 흉내 내는 데는 탁월합니다. (연기 실력 최상)
인공지능의 한계: 하지만 그 행동 뒤에 숨겨진 **원인과 결과 (마음 $\rightarrow$ 행동)**를 논리적으로 연결하고, 새로운 상황에 적용하며, 앞뒤를 맞추는 진정한 이해는 부족합니다.

왜 이것이 중요한가요?
우리가 인공지능에게 "이 사람의 마음을 이해해 줘"라고 요청할 때, 인공지능이 단순히 통계적으로 가장 그럴듯한 답을 내놓는다면, 그것은 진짜 이해가 아닙니다. 인공지능이 정말로 사람의 마음을 이해하려면, 단순히 정답을 맞추는 것을 넘어 상황이 바뀌어도 일관된 논리로 행동하고, 앞뒤가 맞는 추론을 할 수 있어야 합니다.

이 연구는 인공지능이 더 똑똑해지기 위해서는 단순히 데이터를 더 많이 학습하는 것을 넘어, 진짜 '이해'의 구조를 갖추어야 함을 경고하고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대규모 언어 모델 (LLM) 이 마음의 이론 (Theory of Mind, ToM) 을 가지고 있는가?라는 질문은 인지과학과 인공지능 분야에서 중요한 논쟁거리입니다.

기존 연구의 한계: 기존 연구는 LLM 을 인간 성능의 벤치마크와 비교하여 다양한 사회적 과제에서 성공적인 결과를 보인다고 주장해 왔습니다. 그러나 이러한 평가는 ToM 이 가리키는 실제 표현 (정신 상태와 행동 사이의 인과적 모델) 을 테스트하지 못합니다.
핵심 질문: LLM 이 단순히 훈련 데이터의 통계적 패턴을 모방하여 사회적 유창성을 보이는 것일 뿐, 정신 상태가 행동을 유발한다는 추상적이고 일관된 인과 모델을 실제로 가지고 있는지는 불분명합니다.
목표: 인간과 유사한지 여부가 아니라, ToM 의 정의적 특징인 일관성 (Coherence), 추상성 (Abstractness), 일관성 (Consistency) 을 기준으로 LLM 이 진정한 ToM 을 갖는지 평가하는 새로운 프레임워크를 개발하는 것입니다.

2. 방법론 (Methodology)

저자들은 인간 발달 및 계산 인지 과학에 기반한 정의를 바탕으로, GPT-4o 를 평가하기 위해 세 가지 연구를 설계했습니다. 평가의 핵심은 LLM 이 정신 상태 (Beliefs, Desires) 와 행동 (Actions) 을 연결하는 인과 모델을 가지고 있는지 확인하는 것입니다.

A. 평가 패러다임

ContainerWorld (Study 1 & 2):
- 캐릭터가 방 한 구석에 있고, 상자와 바구니 두 개의 용기가 있습니다.
- 변수: 용기의 내용물 (상태, $S$ ), 캐릭터의 믿음 ( $B$ ), 과일에 대한 선호도 ( $D$ ), 이동 거리 (비용, $C$ ).
- LLM 에게 캐릭터가 어떤 용기를 열지 행동 예측 ( $\mathcal{F}$ ) 을 요청합니다.
MovieWorld (Study 2 & 3):
- ContainerWorld 와 논리적으로 동등하지만 표면적 특징이 다른 패러다임입니다.
- 변수: 영화 장르 ( $S$ ), 캐릭터의 믿음 ( $B$ ), 장르 선호도 ( $D$ ), 상영까지 남은 시간 (비용, $C$ ).
- 1:1 매핑: ContainerWorld 의 모든 시나리오를 MovieWorld 로 매핑하여 LLM 이 도메인 간 추상화가 가능한지 테스트합니다.

B. 평가 지표

일관성 (Coherence): LLM 의 행동 예측이 인간의 ToM 모델 (HumanToM) 과 얼마나 일치하는지, 그리고 비용, 믿음, 욕구를 체계적으로 결합하는지 확인합니다.
추상성 (Abstractness): ContainerWorld 에서 학습된 행동 예측 ( $\mathcal{F}$ ) 과 정신 상태 추론 ( $\mathcal{I}$ ) 이 MovieWorld 에서도 동일한 패턴을 보이는지 확인합니다.
일관성 (Consistency):
- 전진 모델 (Forward Model): 정신 상태 ( $B, D$ ) $\to$ 행동 ( $A$ ) 예측.
- 역전 모델 (Inverse Model): 관찰된 행동 ( $A$ ) $\to$ 정신 상태 ( $B, D$ ) 추론.
- 이 두 과정이 서로 모순되지 않고 동일한 인과 모델을 공유하는지 (Bayesian inversion 및 유효성 평가) 확인합니다.

3. 주요 기여 (Key Contributions)

새로운 평가 프레임워크: 인간 성능과의 단순 비교를 넘어, ToM 의 본질적 속성 (일관성, 추상성, 일관성) 을 검증하는 인지 기반 평가 방법론을 제시했습니다.
인과 모델 부재 증명: LLM 이 사회적 유창성을 보일지라도, 그것이 내부적으로 통합된 인과적 ToM 을 기반으로 하지 않을 수 있음을 실증적으로 증명했습니다.
비인간 중심 평가: LLM 의 ToM 이 인간과 정확히 같을 필요는 없다는 전제하에, LLM 고유의 추상적 인과 모델 존재 여부를 검증하는 기준을 마련했습니다.

4. 연구 결과 (Results)

Study 1: 일관성 (Coherence)

GPT-4o 는 ContainerWorld 에서 인간의 ToM 모델 (HumanToM) 과 높은 일치도를 보였습니다.
이는 LLM 이 비용, 믿음, 욕구를 결합하여 행동을 예측하는 것처럼 보임을 시사합니다.

Study 2: 추상성 (Abstractness)

행동 예측의 불일치: ContainerWorld 에서의 행동 예측이 MovieWorld 의 행동 예측을 신뢰할 수 있게 예측하지 못했습니다 (상관관계 $r=0.48$ ).
정신 상태 추론의 불일치: ContainerWorld 에서의 믿음/욕구 추론이 MovieWorld 로 일반화되지 않았습니다. 특히 '욕구' 추론의 상관관계는 매우 낮았습니다 ( $r=0.18$ ).
결론: LLM 은 도메인 간에 유연하게 적용되는 추상적인 인과 모델을 가지고 있지 않습니다. 표면적 특징 (거리 vs 시간) 이 바뀌면 예측 패턴이 붕괴됩니다.

Study 3: 일관성 (Consistency)

전진/역전 모델의 불일치: LLM 이 특정 상황에서 행동을 예측할 때 사용하는 인과 모델과, 관찰된 행동으로부터 정신 상태를 추론할 때 사용하는 모델이 서로 일치하지 않았습니다.
Bayesian 및 유효성 평가: 두 가지 엄격한 평가 기준 모두에서 GPT-4o 는 실패했습니다. 즉, LLM 이 예측한 행동과 추론한 정신 상태는 서로 인과적으로 연결되어 있지 않습니다.

5. 의의 및 결론 (Significance & Conclusion)

핵심 결론: GPT-4o 를 포함한 현재 LLM 은 일관성, 추상성, 일관성이라는 ToM 의 세 가지 핵심 특징을 모두 결여하고 있습니다. LLM 의 사회적 유창성은 통계적 패턴 매칭에 기반한 것이며, 진정한 의미의 '마음의 이론' (인과적 모델) 을 기반으로 하지 않습니다.
실용적 함의: LLM 이 ToM 을 가지고 있지 않다면, 훈련 데이터 범위를 벗어난 새로운 사회적 상황에서도 합리적이고 일관된 추론을 할 것이라는 기대는 위험할 수 있습니다.
미래 방향: 단순한 벤치마크 점수보다는 모델이 가진 인과적 표현의 질을 평가하는 것이 더 중요합니다. 저자들은 이 접근 방식을 오픈소스 평가 지표로 공개하여, 향후 더 강력한 LLM 들이 진정한 ToM 을 획득했는지, 아니면 단순히 사회적 유창성만 향상되었는지를 구분할 수 있도록 제안합니다.

이 연구는 LLM 이 인간과 유사한 사회적 능력을 보일지라도, 그 이면에 있는 인지 메커니즘이 인간과 근본적으로 다를 수 있음을 경고하며, 인공지능의 '이해' 능력에 대한 철학적, 기술적 재고를 요구합니다.