LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

이 논문은 제어된 산술 작업을 통해 대규모 언어 모델이 CoT 추론 과정에서 답변을 미리 결정하지 않고 실시간으로 계산하며, 생성된 추론 과정이 모델의 내부 계산을 충실히 반영함을 체계적으로 분석했습니다.

Keito Kudo, Yoichi Aoki, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Ana Brassard, Keisuke Sakaguchi, Kentaro Inui

게시일 2026-03-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 실제로 생각하며 답을 내는지, 아니면 미리 정해둔 답을 설명하는 척하는지"**를 파헤친 흥미로운 연구입니다.

쉽게 말해, AI 가 "생각하는 과정 (Chain of Thought)"을 보여줄 때, 그 과정이 진짜 계산 과정인지, 아니면 "정답을 먼저 알고 나서 거꾸로 설명을 지어낸 것 (후과적 합리화)"인지 확인한 거죠.

연구 결과, 놀랍게도 AI 는 진짜로 생각하며 답을 계산해 나가고 있었습니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.


🕵️‍♂️ 비유: "미리 정해진 답을 외우는 학생 vs 문제를 풀며 답을 찾는 학생"

이 논문의 핵심 질문은 다음과 같습니다.

"수학 문제를 풀 때, 학생이 문제지를 읽는 순간 정답을 이미 알고 있다가, 나중에 '풀이 과정'을 지어내서 보여주는 걸까? 아니면 풀이 과정을 쓰면서 차근차근 답을 찾아내는 걸까?"

1. 실험 방법: "AI 의 뇌를 X-ray 로 찍다"

연구자들은 AI 가 문제를 풀고 있을 때, 그 내부의 '숨겨진 생각 (데이터)'을 실시간으로 들여다보는 **선형 프로브 (Linear Probes)**라는 기술을 썼습니다.

  • 비유: AI 가 문제를 풀고 있는 도중, 매 순간 "지금 이 순간, 답이 머릿속에 들어왔니?"라고 AI 의 뇌를 찔러보면서 확인한 것입니다.

2. 발견된 사실 1: "답은 나중에 나온다!"

대부분의 사람들은 AI 가 문제를 읽는 순간 (CoT 시작 전) 에 이미 답을 알고 있을 것이라고 생각했습니다. 하지만 연구 결과는 달랐습니다.

  • 결과: AI 는 문제를 처음 읽을 때는 답을 몰랐습니다. 답은 **풀이 과정을 쓰면서 (CoT 중)**에야 비로소 계산되어 나타났습니다.
  • 비유: 마치 "1+1 은?"이라고 물었을 때, AI 가 바로 "2"라고 외치는 게 아니라, "1 을 더하고 1 을 더하면... 아! 2 가 되네!"라고 계산하는 순간에야 답이 생긴 것입니다.

3. 발견된 사실 2: "최근의 기억이 가장 중요하다"

AI 는 풀이 과정의 마지막 부분에 가장 큰 영향을 받았습니다.

  • 결과: 문제의 앞부분 (초반 입력) 보다는, 방금 전에 쓴 풀이 단계가 최종 답을 결정하는 데 훨씬 더 중요했습니다.
  • 비유: 시험을 볼 때, 문제지 맨 앞의 조건보다는 막상 풀이를 하다가 쓴 마지막 계산식이 정답을 결정짓는다는 뜻입니다. AI 는 "최근에 쓴 것"을 기억하며 다음 단계를 이어갑니다.

4. 실험 2: "뇌의 일부를 바꿔치기 해보기 (인과 개입)"

연구자들은 AI 의 풀이 과정 중간에 있는 '숨겨진 생각'을 다른 문제의 것으로 바꿔치기 (패치) 해보았습니다.

  • 결과: 만약 AI 가 미리 답을 알고 있었다면, 중간 과정을 바꿔도 최종 답은 변하지 않았을 것입니다. 하지만 중간 풀이 과정을 바꿔치기 하니까, AI 가 내린 최종 답도 함께 바뀌었습니다.
  • 비유: 요리사가 레시피 (풀이 과정) 를 바꿔치기 했더니, 완성된 요리 (정답) 의 맛도 달라진 것입니다. 이는 요리사가 레시피를 보고 요리를 했다는 증거죠.

💡 결론: "AI 는 거짓말을 하지 않는다 (적어도 이 경우에는)"

이 연구는 AI 가 "정답을 먼저 정해놓고, 그걸 설명하는 척하는 (후과적 합리화)" 행동을 하지 않는다는 것을 증명했습니다.

  • 기존의 우려: "AI 가 답을 먼저 알고, 그걸 그럴듯하게 포장해서 보여주는 게 아닐까?"
  • 이 연구의 결론: "아닙니다. AI 는 생각하는 과정 (CoT) 을 쓰면서 진짜로 답을 계산하고 있습니다. 우리가 보는 '생각의 과정'은 AI 내부의 실제 계산과 정직하게 일치합니다."

🌟 한 줄 요약

"AI 는 문제를 풀기 전에 정답을 외우는 게 아니라, 풀이 과정을 쓰면서 진짜로 계산해서 답을 찾아냅니다. 그러니 우리가 보는 '생각의 과정'은 믿을 만합니다!"

이 연구는 우리가 AI 의 설명을 더 신뢰할 수 있게 해주는 중요한 발견입니다. AI 가 "생각하는 척"하는 게 아니라, "생각하고 있다"는 증거를 찾은 셈이죠.