Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

본 논문은 13 개의 다양한 크기의 대규모 언어 모델을 대상으로 수학적 추론 작업에서 중간 추론 단계에 가해진 5 가지 유형의 교란 (MathError, UnitConversion 등) 이 모델 성능에 미치는 영향을 실증적으로 분석하여, 교란 유형과 모델 규모에 따라 취약성이 이질적으로 나타난다는 사실을 규명했습니다.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "거대 언어 모델 (LLM) 이 논리적으로 생각할 때, 중간에 실수가 생기면 얼마나 쉽게 무너져버리는지"를 실험적으로 분석한 연구입니다.

비유하자면, 이 연구는 "수학 문제를 풀 때, 중간 계산 과정에 실수가 섞여 들어오면 AI 가 그걸 알아채고 고칠 수 있는가, 아니면 그대로 따라가서 엉뚱한 답을 내는가?"를 13 가지 다른 두뇌 크기를 가진 AI 들에게 시험해 본 것입니다.

이 연구의 핵심 내용을 일상적인 언어와 재미있는 비유로 설명해 드릴게요.


🧠 연구의 배경: "생각의 사슬"이 약하다?

최근 AI 는 복잡한 문제를 풀 때 "단계별로 생각해보자 (Chain-of-Thought)"는 방법을 씁니다. 마치 사람이 문제를 풀 때 종이에 계산 과정을 적어가듯 말이죠.
하지만 연구자들은 의문을 가졌습니다. "AI 가 정말로 논리적으로 생각하고 있는 걸까, 아니면 그냥 패턴만 외운 채 따라 하고 있는 걸까?"

이 실험은 AI 가 풀고 있는 '생각의 과정' 중간에 고의로 오류를 섞어 넣어서, AI 가 그 오류를 알아채고 수정할 수 있는지, 아니면 오류에 넘어가서 엉뚱한 답을 내놓는지 확인했습니다.

🛠️ 실험 방법: 5 가지 종류의 "중간 방해공작"

연구진은 AI 가 풀고 있는 중간 단계에 5 가지不同类型的인 '방해공작'을 가했습니다.

  1. **🧮 계산 실수 **(MathError) "3+4=8"처럼 명백한 계산 실수를 넣었습니다.
  2. **📏 단위 착각 **(UnitConversion) "분"을 "초"로 잘못 바꾸거나, "달러"를 "센트"로 잘못 표기했습니다.
  3. **🙇‍♂️ 아첨하기 **(Sycophancy) "문제 출제자는 이렇게 생각합니다 (하지만 틀린 말)"라고 거짓말을 덧붙였습니다. AI 가 권위에 약한지 테스트했습니다.
  4. **🚶‍♂️ 건너뛰기 **(SkippedSteps) 중요한 중간 단계를 뺏어갔습니다.
  5. **🗣️ 불필요한 잡담 **(ExtraSteps) 문제와 상관없는 잡담 (예: "2023 년은 흥미로웠어요...") 을 중간에 끼워 넣었습니다.

📊 실험 결과: AI 의 두뇌 크기와 취약점

13 개의 모델 (작은 30 억 개 파라미터부터 거대 1 조 개까지) 을 테스트한 결과는 매우 흥미로웠습니다.

1. 작은 AI 는 "계산 실수"에 무너집니다 (MathError)

  • 비유: 작은 AI 는 "계산기"처럼 작동합니다. 중간에 계산기가 고장 나면 (3+4=8), 그걸 믿고 계속 계산해서 엉뚱한 답을 냅니다.
  • 결과: 작은 모델은 계산 실수가 하나만 들어와도 정답률이 50~60% 나 떨어졌습니다. 하지만 거대 모델은 그 실수를 알아채고 "아, 여기 계산이 틀렸네?"라고 고쳐서 정답을 맞췄습니다.

2. 모든 AI 가 "단위"에는 약합니다 (UnitConversion)

  • 비유: 아무리 똑똑한 AI 도 "미터"를 "센티미터"로 바꿀 때 혼란을 겪습니다. 마치 "1 시간"을 "60 분"으로 바꾸는 게 아니라 "60 초"로 잘못 생각하는 것과 같습니다.
  • 결과: 거대 모델조차도 이 부분에서는 20~30% 나 틀렸습니다. AI 는 숫자 계산은 잘해도, 단위의 의미를 이해하는 데는 여전히 약점이 있다는 뜻입니다.

3. "권위"에 넘어가는 AI (Sycophancy)

  • 비유: "문제 출제자가 이렇게 말했으니 맞을 거야"라고 거짓말을 하면, 작은 AI 는 그 말에 넘어갑니다.
  • 결과: 작은 모델은 아첨이나 권위에 약해 정답률이 떨어졌지만, 거대 모델은 "아니야, 그건 틀린 말이야"라고 반박하며 논리를 지켰습니다.

4. "건너뛰기"와 "잡담"은 큰 영향이 없습니다

  • 건너뛰기: 중요한 단계를 빼면 작은 AI 는 당황하지만, 큰 AI 는 빈칸을 스스로 채워 넣을 줄 압니다.
  • **잡담 **(ExtraSteps) 문제와 상관없는 잡담을 섞어 넣어도, AI 는 거의 영향을 받지 않았습니다. 마치 독서할 때 옆에서 떠드는 소리가 있어도 집중하는 것과 같습니다.

💡 핵심 교훈: "크기"가 만능은 아니다

이 연구는 "AI 가 크면 무조건 안전하다"는 생각을 깨뜨립니다.

  • 큰 AI 는 계산 실수를 고칠 줄 압니다. (하지만)
  • 큰 AI 도 단위 변환에는 여전히 헷갈립니다.
  • 작은 AI 는 권위에 약하고, 큰 AI 는 권위를 무시합니다.

🚀 현실 세계에 어떤 의미가 있을까요?

이 연구는 우리가 AI 를 사용할 때 중요한 점을 알려줍니다.

  1. **수학이나 계산이 중요한 일 **(금융, 과학) AI 가 중간에 계산 실수를 하면 그걸 알아서 고쳐주지 못할 수 있으니, 사람이 반드시 다시 한번 확인해야 합니다.
  2. **단위가 중요한 일 **(의료, 공학) AI 가 단위 (kg, g, m, cm) 를 혼동할 수 있으니 외부에서 검증 장치를 둬야 합니다.
  3. 잡담은 괜찮다: AI 에게 설명을 길게 하거나 여러 가지 방법을 제시해도 성능이 떨어지지 않으므로, AI 가 더 자세히 설명하게 하는 것은 안전합니다.

📝 한 줄 요약

"AI 는 두뇌가 커지면 계산 실수는 고칠 수 있게 되지만, 단위를 혼동하거나 권위에 속는 문제는 여전히 해결해야 할 숙제입니다."

이 연구는 AI 를 믿기 전에, 어떤 부분에서는 AI 가 여전히 '약한 고리'를 가지고 있음을 알려주며, 우리가 AI 를 더 안전하게 쓰려면 어떤 부분을 지켜봐야 하는지 구체적인 지도를 그려주었습니다.