Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "거대 언어 모델 (LLM) 이 논리적으로 생각할 때, 중간에 실수가 생기면 얼마나 쉽게 무너져버리는지"를 실험적으로 분석한 연구입니다.

비유하자면, 이 연구는 "수학 문제를 풀 때, 중간 계산 과정에 실수가 섞여 들어오면 AI 가 그걸 알아채고 고칠 수 있는가, 아니면 그대로 따라가서 엉뚱한 답을 내는가?"를 13 가지 다른 두뇌 크기를 가진 AI 들에게 시험해 본 것입니다.

이 연구의 핵심 내용을 일상적인 언어와 재미있는 비유로 설명해 드릴게요.

🧠 연구의 배경: "생각의 사슬"이 약하다?

최근 AI 는 복잡한 문제를 풀 때 "단계별로 생각해보자 (Chain-of-Thought)"는 방법을 씁니다. 마치 사람이 문제를 풀 때 종이에 계산 과정을 적어가듯 말이죠.
하지만 연구자들은 의문을 가졌습니다. "AI 가 정말로 논리적으로 생각하고 있는 걸까, 아니면 그냥 패턴만 외운 채 따라 하고 있는 걸까?"

이 실험은 AI 가 풀고 있는 '생각의 과정' 중간에 고의로 오류를 섞어 넣어서, AI 가 그 오류를 알아채고 수정할 수 있는지, 아니면 오류에 넘어가서 엉뚱한 답을 내놓는지 확인했습니다.

🛠️ 실험 방법: 5 가지 종류의 "중간 방해공작"

연구진은 AI 가 풀고 있는 중간 단계에 5 가지不同类型的인 '방해공작'을 가했습니다.

**🧮 계산 실수 **(MathError) "3+4=8"처럼 명백한 계산 실수를 넣었습니다.
**📏 단위 착각 **(UnitConversion) "분"을 "초"로 잘못 바꾸거나, "달러"를 "센트"로 잘못 표기했습니다.
**🙇‍♂️ 아첨하기 **(Sycophancy) "문제 출제자는 이렇게 생각합니다 (하지만 틀린 말)"라고 거짓말을 덧붙였습니다. AI 가 권위에 약한지 테스트했습니다.
**🚶‍♂️ 건너뛰기 **(SkippedSteps) 중요한 중간 단계를 뺏어갔습니다.
**🗣️ 불필요한 잡담 **(ExtraSteps) 문제와 상관없는 잡담 (예: "2023 년은 흥미로웠어요...") 을 중간에 끼워 넣었습니다.

📊 실험 결과: AI 의 두뇌 크기와 취약점

13 개의 모델 (작은 30 억 개 파라미터부터 거대 1 조 개까지) 을 테스트한 결과는 매우 흥미로웠습니다.

1. 작은 AI 는 "계산 실수"에 무너집니다 (MathError)

비유: 작은 AI 는 "계산기"처럼 작동합니다. 중간에 계산기가 고장 나면 (3+4=8), 그걸 믿고 계속 계산해서 엉뚱한 답을 냅니다.
결과: 작은 모델은 계산 실수가 하나만 들어와도 정답률이 50~60% 나 떨어졌습니다. 하지만 거대 모델은 그 실수를 알아채고 "아, 여기 계산이 틀렸네?"라고 고쳐서 정답을 맞췄습니다.

2. 모든 AI 가 "단위"에는 약합니다 (UnitConversion)

비유: 아무리 똑똑한 AI 도 "미터"를 "센티미터"로 바꿀 때 혼란을 겪습니다. 마치 "1 시간"을 "60 분"으로 바꾸는 게 아니라 "60 초"로 잘못 생각하는 것과 같습니다.
결과: 거대 모델조차도 이 부분에서는 20~30% 나 틀렸습니다. AI 는 숫자 계산은 잘해도, 단위의 의미를 이해하는 데는 여전히 약점이 있다는 뜻입니다.

3. "권위"에 넘어가는 AI (Sycophancy)

비유: "문제 출제자가 이렇게 말했으니 맞을 거야"라고 거짓말을 하면, 작은 AI 는 그 말에 넘어갑니다.
결과: 작은 모델은 아첨이나 권위에 약해 정답률이 떨어졌지만, 거대 모델은 "아니야, 그건 틀린 말이야"라고 반박하며 논리를 지켰습니다.

4. "건너뛰기"와 "잡담"은 큰 영향이 없습니다

건너뛰기: 중요한 단계를 빼면 작은 AI 는 당황하지만, 큰 AI 는 빈칸을 스스로 채워 넣을 줄 압니다.
**잡담 **(ExtraSteps) 문제와 상관없는 잡담을 섞어 넣어도, AI 는 거의 영향을 받지 않았습니다. 마치 독서할 때 옆에서 떠드는 소리가 있어도 집중하는 것과 같습니다.

💡 핵심 교훈: "크기"가 만능은 아니다

이 연구는 "AI 가 크면 무조건 안전하다"는 생각을 깨뜨립니다.

큰 AI 는 계산 실수를 고칠 줄 압니다. (하지만)
큰 AI 도 단위 변환에는 여전히 헷갈립니다.
작은 AI 는 권위에 약하고, 큰 AI 는 권위를 무시합니다.

🚀 현실 세계에 어떤 의미가 있을까요?

이 연구는 우리가 AI 를 사용할 때 중요한 점을 알려줍니다.

**수학이나 계산이 중요한 일 **(금융, 과학) AI 가 중간에 계산 실수를 하면 그걸 알아서 고쳐주지 못할 수 있으니, 사람이 반드시 다시 한번 확인해야 합니다.
**단위가 중요한 일 **(의료, 공학) AI 가 단위 (kg, g, m, cm) 를 혼동할 수 있으니 외부에서 검증 장치를 둬야 합니다.
잡담은 괜찮다: AI 에게 설명을 길게 하거나 여러 가지 방법을 제시해도 성능이 떨어지지 않으므로, AI 가 더 자세히 설명하게 하는 것은 안전합니다.

📝 한 줄 요약

"AI 는 두뇌가 커지면 계산 실수는 고칠 수 있게 되지만, 단위를 혼동하거나 권위에 속는 문제는 여전히 해결해야 할 숙제입니다."

이 연구는 AI 를 믿기 전에, 어떤 부분에서는 AI 가 여전히 '약한 고리'를 가지고 있음을 알려주며, 우리가 AI 를 더 안전하게 쓰려면 어떤 부분을 지켜봐야 하는지 구체적인 지도를 그려주었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

Chain-of-Thought (CoT) 프롬핑은 대형 언어 모델 (LLM) 이 복잡한 추론 능력을 발휘하도록 유도하는 핵심 기법입니다. 그러나 기존 연구들은 CoT 의 성공에 집중했을 뿐, 중간 추론 단계에 오류나 교란 (perturbation) 이 발생했을 때 모델의 견고성 (robustness) 이 얼마나 취약한지에 대해서는 체계적으로 평가하지 않았습니다.

실제 배포 환경에서는 upstream 시스템에서 생성된 추론 체인이 불완전하거나, 계산 오류를 포함하거나, 외부의 잘못된 정보 (권위 주장 등) 를 포함할 수 있습니다. 이러한 현실적인 교란 상황에서 LLM 이 단계별 논리적 추론을 수행하는지, 아니면 단순히 표면적인 패턴 매칭에 의존하는지, 그리고 모델의 규모 (Scale) 가 이러한 취약성을 어떻게 완화하는지 파악하는 것은 금융, 의료, 과학 발견과 같은 고위험 분야에서 모델의 안전한 배포를 위해 필수적입니다.

2. 방법론 (Methodology)

2.1 실험 설계 및 데이터셋

데이터셋: 고등학교 수준의 수학 문제 데이터셋인 GSM8K를 사용했습니다.
작업: 모델에게 문제와 함께 **부분적인 추론 경로 (partial reasoning trace)**를 제공하고, 나머지 단계를 완성하여 최종 답을 도출하도록 하는 '부분 경로 완성 (partial-trace completion)' 태스크를 수행했습니다.
평가 대상 모델: 파라미터 수 (3B~1.5T) 와 아키텍처가 다양한 13 개의 LLM을 평가했습니다. (Claude, GPT, Gemini, Llama, Mistral, Qwen, DeepSeek 등)

2.2 교란 유형 (Perturbation Taxonomy)

저자들은 추론 특이적 (reasoning-specific) 인 5 가지 교란 유형을 정의하고, 이를 부분 추론 경로의 마지막 중간 단계에 주입했습니다.

MathError (수학적 오류): 중간 계산식을 의도적으로 틀리게 변경 (예: $3+4=8$).
UnitConversion (단위 변환): 계산 과정 중 단위를 변경하거나 혼동 (예: 분을 초로 잘못 변환).
Sycophancy (아첨/권위 맹신): "문제 저자는 ~라고 생각합니다"라는 형식으로 수학적 사실과 다른 잘못된 주장을 추가.
SkippedSteps (단계 생략): 필수적인 중간 추론 단계를 제거하고 답을 바로 유도하도록 유도.
ExtraSteps (불필요한 단계): 논리적 흐름과 무관한 잡음 (noise) 이나 과도한 맥락을 삽입.

2.3 평가 지표

주요 지표: 정답률 (Accuracy).
견고성 측정: 깨끗한 (Clean) 조건과 교란된 (Perturbed) 조건 간의 정답률 차이 ( $\Delta Acc$ ) 를 계산하여 모델의 취약 정도를 정량화했습니다.

3. 주요 결과 (Key Results)

실험 결과는 모델의 규모와 교란 유형에 따라 **이질적인 취약성 패턴 (heterogeneous vulnerability patterns)**을 보임을 밝혔습니다.

3.1 교란 유형별 영향도

MathError (가장 치명적):
- 소형 모델 (3B~~8B) 에서 정답률이 **50~~60% 급감**했습니다.
- 대형 모델 (500B 이상) 에서는 손실이 **5~10%**로 크게 감소하여, 규모 확장이 수학적 오류 수정에 강력한 보호 효과를 줌을 보여줍니다.
- 행동 양상: 일부 모델은 오류를 무시하고 오류를 전파 (Error-Ignoring) 하는 반면, 다른 모델은 오류를 감지하고 수정 (Error-Correcting) 합니다.
UnitConversion (가장 보편적 어려움):
- 모든 규모의 모델에서 20~30% 의 정답률 하락이 발생했습니다.
- 대형 모델조차도 단위 추적 및 차원 추론 (dimensional reasoning) 에서 취약하며, 규모 확장에 따른 보호 효과가 제한적입니다.
SkippedSteps (중간 영향):
- 소형 모델은 약 15%, 대형 모델은 0~3% 정도의 손실을 보였습니다.
- 대형 모델은 누락된 단계를 추론하여 복구하는 능력이 있지만, 소형 모델은 논리적 연결 고리가 끊어지면 추론이 실패합니다.
Sycophancy (아첨/권위):
- 소형 모델은 7%, 대형 모델은 거의 영향이 없음 (0~2% 손실).
- 대형 모델은 잘못된 전문가 주장에도 불구하고 논리적 진실을 유지하는 경향이 강합니다.
ExtraSteps (가장 영향 적음):
- 모든 모델에서 정답률 하락이 **0~6%**로 미미했습니다.
- 모델은 불필요한 정보 (잡음) 를 효과적으로 필터링하거나, 추론 경로가 길어지더라도 견고함을 유지합니다.

3.2 규모와 견고성의 관계 (Scaling Laws)

멱법칙 (Power-law) 패턴: 모델 크기가 커질수록 견고성이 향상되지만, 그 정도는 교란 유형에 따라 다릅니다.
- MathError: 급격한 개선 (가파른 기울기).
- Sycophancy, SkippedSteps, UnitConversion: 완만한 개선 (얕은 기울기).
- ExtraSteps: 규모와 무관한 거의 수평선 (기울기 $\approx 0$ ).
결론: 모델 크기 증가는 일부 오류 (수학 계산) 에는 강력한 방어막이 되지만, 단위 변환이나 논리적 흐름의 일부 결여와 같은 특정 유형의 추론 오류에는 한계가 있습니다.

4. 주요 기여 (Key Contributions)

체계적인 교란 분류 체계 (Taxonomy): 수학적 오류, 단위 변환, 아첨, 단계 생략, 불필요한 단계 등 5 가지 추론 특이적 교란 유형을 정의했습니다.
광범위한 경험적 평가: 파라미터 수 3B 에서 1.5T 까지 13 개의 다양한 모델을 대상으로 한 대규모 벤치마킹을 수행했습니다.
차등적 확장 관계 (Differential Scaling) 규명: 모델 크기가 증가함에 따라 견고성이 어떻게 변화하는지를 정량화했습니다. 특히, 수학 오류에는 규모가 도움이 되지만 단위 변환에는 도움이 되지 않음을 증명했습니다.

5. 의의 및 시사점 (Significance & Implications)

실무 배포의 경고: LLM 을 다단계 추론 파이프라인에 사용할 때, 단순히 모델 규모만 믿고 중간 단계의 오류를 자동으로 수정되기를 기대해서는 안 됩니다. 특히 수학적 계산과 단위 변환은 외부 검증 메커니즘이 필수적입니다.
신뢰성 있는 AI 구축: 모델이 "잘못된 권위"나 "불완전한 정보"에 얼마나 취약한지 이해하는 것이 중요합니다. 대형 모델은 아첨에는 강하지만, 단위 혼동에는 여전히 취약할 수 있습니다.
향후 연구 방향:
- 단순한 규모 확장 (Scaling) 만으로는 모든 추론 오류를 해결할 수 없으므로, **목표 지향적인 훈련 (Targeted Training)**이나 아키텍처 개선이 필요합니다.
- 더 긴 문맥과 더 복잡한 논리적 의존성을 가진 데이터셋에서의 취약성 평가가 필요합니다.

이 논문은 LLM 의 추론 능력이 단순히 "더 크면 더 좋다"는 가정을 넘어, 어떤 종류의 오류에 얼마나 취약한지에 대한 정밀한 지도를 제공함으로써, 신뢰할 수 있는 LLM 기반 시스템 구축을 위한 기초를 마련했습니다.