Traces of Social Competence in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 정말로 사람의 마음을 읽을 수 있을까?"**라는 아주 흥미로운 질문을 던집니다.

연구자들은 AI 가 사람의 마음을 읽는 능력 (심리학적 용어로 '마음 이론', Theory of Mind) 을 테스트하기 위해 고전적인 **'거짓 믿음 테스트 (False Belief Test)'**를 사용했습니다. 이 테스트는 아주 간단한 이야기로 시작합니다.

이야기: "맥스는 초콜릿을 파란 찬장에 넣어두고 나갔어요. 엄마가 그 초콜릿을 가져다가 초록색 찬장에 옮겨 뒀어요. 맥스가 돌아왔을 때, 맥스는 초콜릿이 어디에 있다고 생각할까요?"
정답: 맥스는 초콜릿이 파란 찬장에 있다고 생각할 것입니다 (엄마가 옮긴 걸 모르니까요).

이 테스트는 아이들뿐만 아니라 AI 도 통과할 수 있는지 확인하는 데 쓰입니다. 하지만 이 논문은 단순히 "AI 가 맞췄다/틀렸다"를 넘어, AI 가 왜 그렇게 답하는지 그 내부 작동 원리를 파헤쳤습니다.

주요 발견들을 일상적인 비유로 설명해 드릴게요.

1. AI 는 '크기'만 키운다고 똑똑해지지 않는다 (모델 크기의 함정)

일반적으로 AI 모델이 크고 방대한 데이터를 많이 학습할수록 똑똑해진다고 생각하기 쉽습니다. 하지만 이 연구는 **"크기가 커진다고 해서 마음 읽기 능력이 무조건 좋아지는 건 아니다"**라고 말합니다.

비유: AI 모델 크기를 키우는 건 마치 도서관의 책 수를 늘리는 것과 비슷합니다. 책이 많아지면 사실은 더 많은 정보를 알게 되지만, 때로는 그 정보들이 서로 충돌하거나 혼란을 일으키기도 합니다.
결과: 모델이 커질수록 '거짓 믿음' 상황 (맥스가 모르고 있는 상황) 을 맞추는 능력은 좋아졌지만, 반대로 '진실 믿음' 상황 (맥스가 알고 있는 상황) 을 맞추는 능력은 오히려 떨어졌습니다. 마치 과도하게 훈련된 선수가 오히려 기본기를 잊어버린 것처럼, AI 는 특정 패턴에 너무 익숙해져서 다른 상황을 놓치는 것입니다.

2. "생각한다 (Think)"라는 단어의 마법 (언어의 함정)

이 연구에서 가장 놀라운 발견은 질문 방식 하나가 AI 의 답을 완전히 바꿔버린다는 것입니다.

상황 A (직접적): "맥스는 초콜릿이 어디에 있다고 생각한다 (thinks)?"
상황 B (간접적): "맥스는 초콜릿을 찾으러 어디로 가겠지 (goes to get)?"

AI 는 상황 A에서는 거짓 믿음 테스트를 잘 통과하지만, 상황 B에서는 엉뚱한 답을 내놓습니다.

비유: AI 는 마치 특정 단어를 보면 자동으로 반응하는 자동售货기 같습니다. "생각한다 (think)"라는 단어가 나오면, AI 는 "아! 이 사람은 무언가를 잘못 알고 있겠구나!"라고 학습된 패턴을 켭니다. 하지만 "찾으러 간다 (goes)"는 단어가 나오면 그 패턴이 꺼져버려서, 사실은 알고 있는 상황에서도 엉뚱하게 추측을 합니다.
핵심: AI 는 진짜 사람의 마음을 이해해서 답하는 게 아니라, "생각한다"라는 단어와 "잘못된 정보"가 자주 함께 등장하는 패턴을 외워서 답하고 있는 것입니다.

3. 교육 (Post-training) 은 양날의 검이다

AI 를 개발할 때는 처음에 책을 많이 읽게 하고 (Pre-training), 그다음에 사람과 대화하듯 가르칩니다 (Instruction Tuning). 연구자들은 이 교육 과정이 AI 의 마음 읽기 능력에 어떤 영향을 미치는지 OLMo 2 라는 모델을 자세히 추적했습니다.

비유: AI 를 유치원생에서 대학생으로 키우는 과정이라고 생각해보세요.
- 초기 (Pre-training): AI 는 언어의 문법과 구조를 배우지만, 마음 읽기는 서툴러요.
- 중기 (Instruction Tuning): 사람과 대화하는 법을 배우면서, "거짓 믿음" 같은 상황을 더 잘 이해하게 됩니다.
- 후기 (Reasoning Tuning): 하지만 너무 논리적으로 가르치려다 보니, 오히려 패턴에 갇혀버립니다. "생각한다"라는 단어가 나오면 무조건 "틀린 답"을 고르려는 버릇이 생기는 것입니다.

4. AI 의 뇌를 직접 조작해 보니 (Vector Steering)

연구자들은 AI 의 내부에서 "생각 (Think)"이라는 개념을 담당하는 특정 신호 (벡터) 를 찾아냈습니다. 그리고 이 신호를 인위적으로 조작해 보았습니다.

실험: AI 가 "생각한다"는 단어를 보지 않아도, 내부 신호에 "생각한다"는 느낌을 주입해 보았습니다.
결과: AI 는 실제로 그 단어가 없어도, 마치 "생각한다"는 단어가 있는 것처럼 행동하며 답을 바꿨습니다.
의미: 이는 AI 가 진짜로 상황을 이해해서 답하는 게 아니라, 단순히 "생각한다"는 단어와 연결된 기계적인 신호에 반응하고 있음을 증명합니다.

📝 결론: AI 는 정말로 마음을 읽을까?

이 논문의 결론은 **"아직은 아니다"**입니다.

AI 는 거대한 데이터를 통해 사람들이 "마음"을 이야기할 때 사용하는 언어 패턴을 아주 잘 흉내 내는 것입니다. 하지만 그건 마치 연극 배우가 대본을 완벽하게 외워서 연기를 하는 것과 같습니다. 배우가 대본 속 인물의 감정을 진짜로 느끼는 것은 아니죠.

우리가 배운 점: AI 가 "마음 이론"을 가진 것처럼 보이는 것은, 특정 단어 ("생각한다", "모른다") 와 특정 상황 ("거짓 믿음") 이 데이터에서 자주 함께 등장하기 때문입니다.
경고: 우리가 AI 를 평가할 때, 단순히 "맞았다/틀렸다"로만 보면 안 됩니다. AI 가 **언어의 함정 (패턴)**에 걸려서 답을 내놓는지, 아니면 진짜 상황을 이해하고 답하는지 구별하는 것이 중요합니다.

결국, AI 는 아직 진짜 사람의 마음을 읽는 능력을 갖추지 못했습니다. 대신 우리가 쓰는 언어의 규칙을 아주 정교하게 따라 하는 천재일 뿐입니다.

Traces of Social Competence in Large Language Models

1. AI 는 '크기'만 키운다고 똑똑해지지 않는다 (모델 크기의 함정)

2. "생각한다 (Think)"라는 단어의 마법 (언어의 함정)

3. 교육 (Post-training) 은 양날의 검이다

4. AI 의 뇌를 직접 조작해 보니 (Vector Steering)

📝 결론: AI 는 정말로 마음을 읽을까?

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 모델 크기와 ToM 추론

B. 명제 태도 (Propositional Attitudes) 의 명시화 효과 (Crossover Effect)

C. 후속 학습 (Post-training) 의 영향

D. OLMo 2 학습 궤적 분석

E. 벡터 스티어링 실험

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance & Conclusion)

Traces of Social Competence in Large Language Models

1. AI 는 '크기'만 키운다고 똑똑해지지 않는다 (모델 크기의 함정)

2. "생각한다 (Think)"라는 단어의 마법 (언어의 함정)

3. 교육 (Post-training) 은 양날의 검이다

4. AI 의 뇌를 직접 조작해 보니 (Vector Steering)

📝 결론: AI 는 정말로 마음을 읽을까?

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 모델 크기와 ToM 추론

B. 명제 태도 (Propositional Attitudes) 의 명시화 효과 (Crossover Effect)

C. 후속 학습 (Post-training) 의 영향

D. OLMo 2 학습 궤적 분석

E. 벡터 스티어링 실험

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics