Think, But Don't Overthink: Reproducing Recursive Language Models

이 논문은 외부 REPL 환경에서 프롬프트를 처리하는 재귀적 언어 모델 (RLM) 을 재현한 결과, 재귀 깊이를 1 로 유지할 때는 복잡한 추론 성능이 향상되지만 깊이를 2 로 늘리거나 단순 검색 작업에 적용하면 모델이 과도하게 사고하여 성능이 저하되고 실행 시간 및 비용이 기하급수적으로 증가하는 '과도한 사고 (overthinking)' 현상을 발견했습니다.

Daren Wang

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 가 긴 글을 읽는 새로운 방법

기존의 AI 는 긴 글을 한 번에 읽으려다 머리가 터지거나 (문맥을 잊어버리거나) 중요한 정보를 놓치는 경우가 많았습니다. 이를 해결하기 위해 제안된 RLM은 다음과 같은 방식을 사용합니다.

  • 비유: AI 가 긴 책을 읽을 때, 책 전체를 한 번에 외우려 하지 않고, 책장을 넘기면서 필요한 부분만 복사해 메모장에 적어두고, 그 메모를 바탕으로 다시 생각해보는 방식입니다.
  • 작동 원리: AI 가 스스로 질문을 던지고, 답을 찾기 위해 다시 자신을 호출하는 '재귀 (Recursion)' 방식을 사용합니다. 마치 스스로에게 질문을 던지는 심리 상담과 같습니다.

2. 실험 내용: "한 번 생각하기" vs "두 번 생각하기"

저자는 최신 AI 모델 (DeepSeek v3.2, Kimi K2) 을 이용해 세 가지 상황을 실험했습니다.

  1. 일반 AI: 그냥 읽어서 답함.
  2. RLM (깊이 1): 한 번 스스로 질문하고 답함. (원래 논문에서 제안한 방식)
  3. RLM (깊이 2): 스스로 질문한 후, 그 답을 다시 검토하기 위해 두 번째로 스스로를 호출함. (이번 연구의 핵심)

3. 주요 발견: "생각하되, 너무 깊게 생각하지 마라"

📉 상황 1: 간단한 질문 (바늘 찾기)

  • 상황: "이 긴 글 속에 '사과'라는 단어가 있니?" 같은 아주 쉬운 질문.
  • 결과:
    • 일반 AI: 100% 정답 (순식간에 찾음).
    • RLM (깊이 1): 정답률 하락 (85%).
    • RLM (깊이 2): 더 큰 하락 (70%).
  • 이유: **과도한 생각 (Overthinking)**입니다.
    • 비유: "물 한 잔을 마시려고 할 때, 물이 어디서 왔는지, 컵은 어떻게 만들어졌는지, 물 분자의 구조는 무엇인지 10 분간 고민하다가 결국 물을 쏟아버리는 상황"입니다. 간단한 일을 하려고 복잡한 과정을 거치니 오히려 실수를 저지른 것입니다.

📈 상황 2: 어려운 질문 (복잡한 추론)

  • 상황: "이 긴 보고서의 모든 데이터를 분석해서 결론을 내줘" 같은 어려운 질문.
  • 결과:
    • 일반 AI: 0% (문맥을 잃어버려서 실패).
    • RLM (깊이 1): 대폭 향상 (42% 로 상승).
    • RLM (깊이 2): 다시 하락 (33% 로 떨어짐).
  • 이유: 한 번의 추가 생각은 도움이 되지만, 두 번의 추가 생각은 혼란을 부릅니다.
    • 비유: 복잡한 미로를 탈출할 때, 한 번 멈춰서 지도를 보는 것은 도움이 되지만, 지도를 보다가 또 다른 지도를 찾아보고, 또 다른 지도를 찾아보다가 미로에서 완전히 길을 잃어버리는 상황입니다.

4. 치명적인 문제: "생각하는 시간"과 "비용" 폭증

정답률뿐만 아니라 시간과 돈도 문제가 되었습니다.

  • 시간: 간단한 질문을 3 초 만에 해결하던 AI 가, RLM (깊이 2) 을 쓰면 5 분 40 초나 걸렸습니다.
  • 비용: API 사용료 (토큰 비용) 가 기하급수적으로 늘어났습니다.
  • 비유: 택시를 타고 100m 이동할 때, 차를 타고 가는 대신 걸어가면서 중간중간 방향을 물어보고, 또 다시 방향을 물어보느라 1 시간 동안 걸리는 상황입니다. 목적지는 같지만, 시간과 돈은 천차만별입니다.

5. AI 가 망가진 3 가지 이유 (실패 사례)

깊은 재귀 (깊이 2) 를 적용했을 때 AI 는 다음과 같이 엉뚱한 행동을 했습니다.

  1. 현실과 가상의 혼동 (할루시네이션):
    • 글속에 있는 가상의 숫자를 찾으라고 했는데, AI 가 자신의 기억 (물리학 상수 등) 을 가져와서 엉뚱한 숫자를 말함.
    • 비유: "이 책에 나오는 주인공 이름이 뭐야?"라고 물었는데, AI 가 "그건 제 기억에 있는 유명한 배우 이름인 '톰 크루즈'입니다"라고 답하는 것.
  2. 형식 붕괴:
    • "답만 말해줘"라고 했는데, 파이썬 코드나 계산 과정 전체를 출력함.
    • 비유: "오늘 날씨 어때?"라고 물었는데, "기압계를 측정하고, 구름의 밀도를 계산하는 중입니다... (계산 과정 10 페이지) ... 결론: 비 옵니다"라고 장황하게 설명하는 것.
  3. 무한 반복 (회전하는 바퀴):
    • 답을 이미 찾았음에도 자꾸 다시 확인하느라 시간이 무한히 걸림.
    • 비유: "문을 잠갔니?"라고 물었을 때, "잠갔습니다"라고 대답한 후, "잠갔는지 다시 확인합니다... 확인 완료... 다시 확인합니다..."를 100 번 반복하는 것.

6. 결론: "적당히 생각하라"

이 연구는 RLM 이라는 기술이 이론적으로는 훌륭하지만, 현재 AI 모델들에게는 '깊은 생각'이 독이 될 수 있음을 보여줍니다.

  • 간단한 일: AI 가 그냥 하는 게 가장 빠르고 정확함.
  • 어려운 일: 한 번 정도는 스스로 생각해보는 것 (깊이 1) 이 도움이 됨.
  • 너무 깊은 생각 (깊이 2): AI 를 혼란스럽게 만들고, 시간을 낭비하며, 비용을 폭증시킴.

한 줄 요약:

"AI 에게도 '생각할 시간'과 '생각의 깊이'에 한계가 있습니다. 너무 깊게 생각하게 하면, 오히려 멍청해지고, 느려지고, 돈을 많이 쓰게 됩니다. 적당히 생각하게 하는 것이 가장 현명합니다."