LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 실제로 생각하며 답을 내는지, 아니면 미리 정해둔 답을 설명하는 척하는지"**를 파헤친 흥미로운 연구입니다.

쉽게 말해, AI 가 "생각하는 과정 (Chain of Thought)"을 보여줄 때, 그 과정이 진짜 계산 과정인지, 아니면 "정답을 먼저 알고 나서 거꾸로 설명을 지어낸 것 (후과적 합리화)"인지 확인한 거죠.

연구 결과, 놀랍게도 AI 는 진짜로 생각하며 답을 계산해 나가고 있었습니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.

🕵️‍♂️ 비유: "미리 정해진 답을 외우는 학생 vs 문제를 풀며 답을 찾는 학생"

이 논문의 핵심 질문은 다음과 같습니다.

"수학 문제를 풀 때, 학생이 문제지를 읽는 순간 정답을 이미 알고 있다가, 나중에 '풀이 과정'을 지어내서 보여주는 걸까? 아니면 풀이 과정을 쓰면서 차근차근 답을 찾아내는 걸까?"

1. 실험 방법: "AI 의 뇌를 X-ray 로 찍다"

연구자들은 AI 가 문제를 풀고 있을 때, 그 내부의 '숨겨진 생각 (데이터)'을 실시간으로 들여다보는 **선형 프로브 (Linear Probes)**라는 기술을 썼습니다.

비유: AI 가 문제를 풀고 있는 도중, 매 순간 "지금 이 순간, 답이 머릿속에 들어왔니?"라고 AI 의 뇌를 찔러보면서 확인한 것입니다.

2. 발견된 사실 1: "답은 나중에 나온다!"

대부분의 사람들은 AI 가 문제를 읽는 순간 (CoT 시작 전) 에 이미 답을 알고 있을 것이라고 생각했습니다. 하지만 연구 결과는 달랐습니다.

결과: AI 는 문제를 처음 읽을 때는 답을 몰랐습니다. 답은 **풀이 과정을 쓰면서 (CoT 중)**에야 비로소 계산되어 나타났습니다.
비유: 마치 "1+1 은?"이라고 물었을 때, AI 가 바로 "2"라고 외치는 게 아니라, "1 을 더하고 1 을 더하면... 아! 2 가 되네!"라고 계산하는 순간에야 답이 생긴 것입니다.

3. 발견된 사실 2: "최근의 기억이 가장 중요하다"

AI 는 풀이 과정의 마지막 부분에 가장 큰 영향을 받았습니다.

결과: 문제의 앞부분 (초반 입력) 보다는, 방금 전에 쓴 풀이 단계가 최종 답을 결정하는 데 훨씬 더 중요했습니다.
비유: 시험을 볼 때, 문제지 맨 앞의 조건보다는 막상 풀이를 하다가 쓴 마지막 계산식이 정답을 결정짓는다는 뜻입니다. AI 는 "최근에 쓴 것"을 기억하며 다음 단계를 이어갑니다.

4. 실험 2: "뇌의 일부를 바꿔치기 해보기 (인과 개입)"

연구자들은 AI 의 풀이 과정 중간에 있는 '숨겨진 생각'을 다른 문제의 것으로 바꿔치기 (패치) 해보았습니다.

결과: 만약 AI 가 미리 답을 알고 있었다면, 중간 과정을 바꿔도 최종 답은 변하지 않았을 것입니다. 하지만 중간 풀이 과정을 바꿔치기 하니까, AI 가 내린 최종 답도 함께 바뀌었습니다.
비유: 요리사가 레시피 (풀이 과정) 를 바꿔치기 했더니, 완성된 요리 (정답) 의 맛도 달라진 것입니다. 이는 요리사가 레시피를 보고 요리를 했다는 증거죠.

💡 결론: "AI 는 거짓말을 하지 않는다 (적어도 이 경우에는)"

이 연구는 AI 가 "정답을 먼저 정해놓고, 그걸 설명하는 척하는 (후과적 합리화)" 행동을 하지 않는다는 것을 증명했습니다.

기존의 우려: "AI 가 답을 먼저 알고, 그걸 그럴듯하게 포장해서 보여주는 게 아닐까?"
이 연구의 결론: "아닙니다. AI 는 생각하는 과정 (CoT) 을 쓰면서 진짜로 답을 계산하고 있습니다. 우리가 보는 '생각의 과정'은 AI 내부의 실제 계산과 정직하게 일치합니다."

🌟 한 줄 요약

"AI 는 문제를 풀기 전에 정답을 외우는 게 아니라, 풀이 과정을 쓰면서 진짜로 계산해서 답을 찾아냅니다. 그러니 우리가 보는 '생각의 과정'은 믿을 만합니다!"

이 연구는 우리가 AI 의 설명을 더 신뢰할 수 있게 해주는 중요한 발견입니다. AI 가 "생각하는 척"하는 게 아니라, "생각하고 있다"는 증거를 찾은 셈이죠.

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

🕵️‍♂️ 비유: "미리 정해진 답을 외우는 학생 vs 문제를 풀며 답을 찾는 학생"

1. 실험 방법: "AI 의 뇌를 X-ray 로 찍다"

2. 발견된 사실 1: "답은 나중에 나온다!"

3. 발견된 사실 2: "최근의 기억이 가장 중요하다"

4. 실험 2: "뇌의 일부를 바꿔치기 해보기 (인과 개입)"

💡 결론: "AI 는 거짓말을 하지 않는다 (적어도 이 경우에는)"

🌟 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

2.1 실험 환경 (Synthetic Arithmetic Tasks)

2.2 분석 기법

3. 주요 결과 (Key Results)

3.1 답의 생성 시점: CoT 중 계산 (Iterative Computation)

3.2 CoT 의 신뢰성 (Faithfulness)

3.3 모델 및 태스크별 일반성

4. 주요 기여 (Key Contributions)

5. 의의 및 시사점 (Significance)

요약

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

🕵️‍♂️ 비유: "미리 정해진 답을 외우는 학생 vs 문제를 풀며 답을 찾는 학생"

1. 실험 방법: "AI 의 뇌를 X-ray 로 찍다"

2. 발견된 사실 1: "답은 나중에 나온다!"

3. 발견된 사실 2: "최근의 기억이 가장 중요하다"

4. 실험 2: "뇌의 일부를 바꿔치기 해보기 (인과 개입)"

💡 결론: "AI 는 거짓말을 하지 않는다 (적어도 이 경우에는)"

🌟 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

2.1 실험 환경 (Synthetic Arithmetic Tasks)

2.2 분석 기법

3. 주요 결과 (Key Results)

3.1 답의 생성 시점: CoT 중 계산 (Iterative Computation)

3.2 CoT 의 신뢰성 (Faithfulness)

3.3 모델 및 태스크별 일반성

4. 주요 기여 (Key Contributions)

5. 의의 및 시사점 (Significance)

요약

유사한 논문

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

Enhancing Lexicon-Based Text Embeddings with Large Language Models