Traces of Social Competence in Large Language Models

본 논문은 17 개의 오픈 가중치 모델을 대상으로 한 대규모 실험을 통해 대규모 언어 모델의 사회적 유능성이 모델 크기와 사후 학습에 의해 어떻게 영향을 받는지 분석하고, '생각 (think)'이라는 정신 상태 어휘가 시나리오의 의미보다 우선하여 고정된 응답 패턴을 유발하는 인과적 요인임을 규명했습니다.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 정말로 사람의 마음을 읽을 수 있을까?"**라는 아주 흥미로운 질문을 던집니다.

연구자들은 AI 가 사람의 마음을 읽는 능력 (심리학적 용어로 '마음 이론', Theory of Mind) 을 테스트하기 위해 고전적인 **'거짓 믿음 테스트 (False Belief Test)'**를 사용했습니다. 이 테스트는 아주 간단한 이야기로 시작합니다.

이야기: "맥스는 초콜릿을 파란 찬장에 넣어두고 나갔어요. 엄마가 그 초콜릿을 가져다가 초록색 찬장에 옮겨 뒀어요. 맥스가 돌아왔을 때, 맥스는 초콜릿이 어디에 있다고 생각할까요?"
정답: 맥스는 초콜릿이 파란 찬장에 있다고 생각할 것입니다 (엄마가 옮긴 걸 모르니까요).

이 테스트는 아이들뿐만 아니라 AI 도 통과할 수 있는지 확인하는 데 쓰입니다. 하지만 이 논문은 단순히 "AI 가 맞췄다/틀렸다"를 넘어, AI 가 왜 그렇게 답하는지 그 내부 작동 원리를 파헤쳤습니다.

주요 발견들을 일상적인 비유로 설명해 드릴게요.


1. AI 는 '크기'만 키운다고 똑똑해지지 않는다 (모델 크기의 함정)

일반적으로 AI 모델이 크고 방대한 데이터를 많이 학습할수록 똑똑해진다고 생각하기 쉽습니다. 하지만 이 연구는 **"크기가 커진다고 해서 마음 읽기 능력이 무조건 좋아지는 건 아니다"**라고 말합니다.

  • 비유: AI 모델 크기를 키우는 건 마치 도서관의 책 수를 늘리는 것과 비슷합니다. 책이 많아지면 사실은 더 많은 정보를 알게 되지만, 때로는 그 정보들이 서로 충돌하거나 혼란을 일으키기도 합니다.
  • 결과: 모델이 커질수록 '거짓 믿음' 상황 (맥스가 모르고 있는 상황) 을 맞추는 능력은 좋아졌지만, 반대로 '진실 믿음' 상황 (맥스가 알고 있는 상황) 을 맞추는 능력은 오히려 떨어졌습니다. 마치 과도하게 훈련된 선수가 오히려 기본기를 잊어버린 것처럼, AI 는 특정 패턴에 너무 익숙해져서 다른 상황을 놓치는 것입니다.

2. "생각한다 (Think)"라는 단어의 마법 (언어의 함정)

이 연구에서 가장 놀라운 발견은 질문 방식 하나가 AI 의 답을 완전히 바꿔버린다는 것입니다.

  • 상황 A (직접적): "맥스는 초콜릿이 어디에 있다고 생각한다 (thinks)?"
  • 상황 B (간접적): "맥스는 초콜릿을 찾으러 어디로 가겠지 (goes to get)?"

AI 는 상황 A에서는 거짓 믿음 테스트를 잘 통과하지만, 상황 B에서는 엉뚱한 답을 내놓습니다.

  • 비유: AI 는 마치 특정 단어를 보면 자동으로 반응하는 자동售货기 같습니다. "생각한다 (think)"라는 단어가 나오면, AI 는 "아! 이 사람은 무언가를 잘못 알고 있겠구나!"라고 학습된 패턴을 켭니다. 하지만 "찾으러 간다 (goes)"는 단어가 나오면 그 패턴이 꺼져버려서, 사실은 알고 있는 상황에서도 엉뚱하게 추측을 합니다.
  • 핵심: AI 는 진짜 사람의 마음을 이해해서 답하는 게 아니라, "생각한다"라는 단어와 "잘못된 정보"가 자주 함께 등장하는 패턴을 외워서 답하고 있는 것입니다.

3. 교육 (Post-training) 은 양날의 검이다

AI 를 개발할 때는 처음에 책을 많이 읽게 하고 (Pre-training), 그다음에 사람과 대화하듯 가르칩니다 (Instruction Tuning). 연구자들은 이 교육 과정이 AI 의 마음 읽기 능력에 어떤 영향을 미치는지 OLMo 2 라는 모델을 자세히 추적했습니다.

  • 비유: AI 를 유치원생에서 대학생으로 키우는 과정이라고 생각해보세요.
    • 초기 (Pre-training): AI 는 언어의 문법과 구조를 배우지만, 마음 읽기는 서툴러요.
    • 중기 (Instruction Tuning): 사람과 대화하는 법을 배우면서, "거짓 믿음" 같은 상황을 더 잘 이해하게 됩니다.
    • 후기 (Reasoning Tuning): 하지만 너무 논리적으로 가르치려다 보니, 오히려 패턴에 갇혀버립니다. "생각한다"라는 단어가 나오면 무조건 "틀린 답"을 고르려는 버릇이 생기는 것입니다.

4. AI 의 뇌를 직접 조작해 보니 (Vector Steering)

연구자들은 AI 의 내부에서 "생각 (Think)"이라는 개념을 담당하는 특정 신호 (벡터) 를 찾아냈습니다. 그리고 이 신호를 인위적으로 조작해 보았습니다.

  • 실험: AI 가 "생각한다"는 단어를 보지 않아도, 내부 신호에 "생각한다"는 느낌을 주입해 보았습니다.
  • 결과: AI 는 실제로 그 단어가 없어도, 마치 "생각한다"는 단어가 있는 것처럼 행동하며 답을 바꿨습니다.
  • 의미: 이는 AI 가 진짜로 상황을 이해해서 답하는 게 아니라, 단순히 "생각한다"는 단어와 연결된 기계적인 신호에 반응하고 있음을 증명합니다.

📝 결론: AI 는 정말로 마음을 읽을까?

이 논문의 결론은 **"아직은 아니다"**입니다.

AI 는 거대한 데이터를 통해 사람들이 "마음"을 이야기할 때 사용하는 언어 패턴을 아주 잘 흉내 내는 것입니다. 하지만 그건 마치 연극 배우가 대본을 완벽하게 외워서 연기를 하는 것과 같습니다. 배우가 대본 속 인물의 감정을 진짜로 느끼는 것은 아니죠.

  • 우리가 배운 점: AI 가 "마음 이론"을 가진 것처럼 보이는 것은, 특정 단어 ("생각한다", "모른다") 와 특정 상황 ("거짓 믿음") 이 데이터에서 자주 함께 등장하기 때문입니다.
  • 경고: 우리가 AI 를 평가할 때, 단순히 "맞았다/틀렸다"로만 보면 안 됩니다. AI 가 **언어의 함정 (패턴)**에 걸려서 답을 내놓는지, 아니면 진짜 상황을 이해하고 답하는지 구별하는 것이 중요합니다.

결국, AI 는 아직 진짜 사람의 마음을 읽는 능력을 갖추지 못했습니다. 대신 우리가 쓰는 언어의 규칙을 아주 정교하게 따라 하는 천재일 뿐입니다.