To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

본 논문은 수학이나 코딩과 같은 형식적 추론에서 뛰어난 성능을 보이는 대형 추론 모델 (LRM) 이도 이론적 마음 (ToM) 과제에서는 오히려 성능이 저하되거나 선택지 매칭에 의존하는 등 기존 추론 방식만으로는 사회적 추론 능력을 확보하기 어렵다는 점을 규명하고, 이를 해결하기 위한 적응형 추론 및 단축 방지 기법을 제안합니다.

Nanxu Gong, Haotian Li, Sixun Dong, Jianxun Lian, Yanjie Fu, Xing Xie

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"생각할까, 말까? AI 의 마음 읽기 능력에 대한 놀라운 발견"

이 논문은 최신 AI 모델들이 **"타인의 마음을 읽는 능력 (심리 이론, Theory of Mind)"**을 얼마나 잘 발휘하는지, 그리고 **"생각하는 과정 (추론)"**을 거치는 것이 정말 도움이 되는지 실험한 연구입니다.

결론부터 말씀드리면, **"무조건 많이 생각한다고 해서 더 똑똑해지는 건 아니다"**는 놀라운 사실이 밝혀졌습니다. 마치 복잡한 수학 문제를 풀 때는 천천히 계산기를 두드리는 게 좋지만, 친구의 감정을 읽을 때는 오히려 너무 깊게 생각하면 오해할 수 있다는 뜻입니다.

이 연구의 핵심 내용을 쉬운 비유로 설명해 드릴게요.


1. 실험 배경: "수학 천재 vs 감정 센스"

최근 AI 는 수학이나 코딩 같은 **'논리적 문제'**를 풀 때, 단계별로 천천히 생각하면 (Reasoning) 실력이 비약적으로 향상됩니다. 마치 수학 문제를 풀 때 "1 단계, 2 단계, 3 단계..."라고 차근차근 적어가면 정답에 가까워지는 것과 같습니다.

하지만 연구진은 궁금했습니다. "이 '천천히 생각하는 능력'이 사람의 마음을 읽는 일 (감정, 의도, 믿음 추론) 에도 도움이 될까?"

2. 주요 발견 3 가지: AI 가 넘어진 함정

① "생각이 너무 길어지면 망한다" (Slow Thinking Collapse)

  • 비유: 친구가 "나 오늘 기분 나빠"라고 했을 때, AI 가 "왜 나빠졌지? 아마 비가 왔나? 아니면 점심이 안 맛있었나? 아니면 내 말이 잘못됐나?"라고 10 분 동안 머리를 싸매고 생각하면, 오히려 친구의 진짜 의도 (예: "단순히 피곤해서") 를 놓치고 엉뚱한 결론을 내립니다.
  • 결과: 복잡한 상황일수록 AI 가 생각하는 시간 (토큰 수) 이 길어질수록 정답률은 떨어졌습니다. 너무 깊게 파고들면 오히려 헷갈려서 실패하는 '생각의 붕괴' 현상이 일어났습니다.

② "정답지 (선지) 가 방해꾼이 된다" (Option Matching Shortcut)

  • 비유: 시험지를 볼 때, 정답지 (A, B, C, D) 가 먼저 보이면 AI 는 문제를 풀기보다 "어떤 답이 가장 그럴듯해 보이는지" 대충 맞춰보려고 합니다. 마치 문제를 읽지 않고 보기만 보고 찍는 것과 비슷합니다.
  • 결과: 연구진이 AI 에게 정답지를 가리고 직접 답을 쓰게 했더니, AI 의 실력이 급격히 좋아졌습니다. 즉, AI 는 진짜 추론을 한 게 아니라, 주어진 보기 중 하나를 '맞추기'만 했을 뿐이었습니다.

③ "적당한 생각과 적응이 필요하다"

  • 비유: 모든 상황에 같은 방식으로 대처하면 안 됩니다. 간단한 질문에는 **순간적인 직관 (System 1)**이 좋고, 복잡한 질문에는 **적당한 수준의 생각 (System 2)**이 필요합니다. 하지만 AI 는 현재 "무조건 깊게 생각하라"는 명령을 따르다 보니, 간단한 문제에서도 과하게 생각하며 망치는 경우가 많았습니다.
  • 결과: 생각의 깊이를 상황에 따라 적응적으로 조절하거나, 생각하지 않는 모델과 섞어서 사용하는 것이 더 좋은 결과를 냈습니다.

3. 연구진이 제안한 해결책: "스마트한 사고법"

연구진은 이 문제들을 해결하기 위해 두 가지 방법을 실험했습니다.

  1. 느림에서 빠름으로 (Slow-to-Fast): AI 가 너무 길게 생각하다 지루해지거나 (지정된 횟수 이상 생각하면), 강제로 **"자, 이제 결론 내자!"**라고 말하게 하여 생각을 멈추게 했습니다. 복잡한 문제에서 정답률이 크게 올랐습니다.
  2. 생각 후 맞추기 (Think-to-Match): AI 가 먼저 정답지를 보지 않고 스스로 답을 추론하게 한 뒤, 그다음에 보기를 비교하게 했습니다. 이렇게 하면 AI 가 보기에만 의존하지 않고 진짜 논리를 세우는 데 도움이 되었습니다.

4. 결론: "논리와 감정은 다른 게임"

이 논문의 가장 중요한 메시지는 다음과 같습니다.

"수학이나 코딩을 잘하는 AI 가 자동으로 사람의 마음을 잘 읽는 건 아닙니다."

논리적 문제 (Formal Reasoning) 와 사회적 추론 (Social Reasoning) 은 완전히 다른 게임입니다.

  • 논리 문제: 천천히, 꼼꼼히 생각할수록 좋습니다.
  • 마음 읽기: 너무 깊게 생각하면 오해가 생기고, 보기 (선지) 에만 의존하면 진짜 능력을 발휘하지 못합니다.

따라서 AI 가 진짜 사람처럼 감정을 이해하고 사회적 상호작용을 잘하려면, 단순히 "더 많이 생각하게" 만드는 게 아니라, **"언제 직관적으로 반응하고, 언제 논리적으로 생각할지 선택하는 능력"**을 새로 가르쳐야 한다는 것입니다.

한 줄 요약:

"AI 가 사람의 마음을 읽을 때는 '생각을 멈추고 직관으로, 혹은 보기에만 의존하지 않고 진짜로 생각하게' 만드는 것이 더 중요합니다."