Contextual Drag: How Errors in the Context Affect LLM Reasoning

이 논문은 LLM 의 자기 개선 파이프라인에서 과거의 실패 사례가 컨텍스트에 포함될 경우 유사한 오류를 반복하게 만드는 '컨텍스트 드래그 (Contextual Drag)' 현상을 규명하고, 이로 인해 모델 성능이 저하되거나 오히려 악화될 수 있음을 다양한 실험을 통해 입증했습니다.

Yun Cheng, Xingyu Zhu, Haoyu Zhao, Sanjeev Arora

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: 그림을 그리는 학생과 나쁜 스케치북

가상의 학생 AI가 있다고 상상해 보세요. 이 학생은 수학 문제를 풀거나 논리적인 추론을 할 때, 스스로 생각하기 전에 **스케치북 **(문맥)을 먼저 봅니다.

  1. **청소된 상태 **(Clean-Slate)
    학생이 아무것도 보지 않고 처음부터 문제를 풉니다. 이때는 실력대로 잘 풉니다.

  2. **나쁜 스케치북이 있을 때 **(Contextual Drag)
    학생이 문제를 풀기 전에, 틀린 답이 적힌 스케치북을 보여줍니다.

    • 학생은 "아, 이 답이 틀렸구나!"라고 지적합니다. (검증)
    • 하지만 막상 다시 문제를 풀려고 펜을 들면, 의도치 않게 그 틀린 답의 '구조'나 '방식'을 따라 하게 됩니다.
    • 마치 나쁜 그림을 보고 "이건 틀렸어"라고 말하면서도, 손이 저절로 그 나쁜 그림의 선을 따라 움직이는 것과 같습니다.

이 논문은 AI 가 틀린 답을 완벽하게 지적하고 버린다고 해도, 그 틀린 답의 '흔적'이 뇌 (모델) 에 남아 있어, 다음 답을 만들 때 그 틀린 패턴을 무의식적으로 답습하게 만든다는 것을 증명했습니다.


🔍 핵심 발견 3 가지

1. "틀린 답을 봤더니 실력이 10~20% 떨어졌다!"

연구진은 11 가지의 다양한 AI 모델 (구글, 오픈AI, 오픈소스 모델 등) 과 8 가지의 어려운 추론 과제 (수학, 과학, 코딩 등) 를 테스트했습니다.

  • 결과: 틀린 답이 문맥에 하나만 있어도, AI 의 정답률은 10~20% 급감했습니다.
  • 비유: 훌륭한 요리사가 "이 소스는 맛이 없어"라고 말하면서도, 그 소스를 만들어 본 기억 때문에 다음 요리에 실수를 반복하는 것과 같습니다.

2. "스스로 고치려다가 오히려 망가짐 (Self-Deterioration)"

일부 AI 는 스스로를 개선하기 위해 "이전 답을 보고 고쳐보자"는 과정을 반복합니다.

  • 문제: 이 과정에서 틀린 답이 계속 문맥에 쌓이면, AI 는 점점 더 나빠지는 악순환에 빠집니다.
  • 비유: 나쁜 습관을 고치려고 노력하다가, 그 나쁜 습관을 너무 자주 생각하다 보니 오히려 그 습관이 더 깊게 각인되어 버리는 것과 같습니다.

3. "틀렸다고 알려줘도 소용없다"

사람이 "이건 틀렸어!"라고 강하게 경고하거나, AI 스스로 "이건 틀렸어!"라고 판단하더라도 문제는 해결되지 않습니다.

  • 원인: AI 는 단순히 '정답/오답'만 보는 게 아니라, **답을 구하는 '과정 **(구조)까지 따라 하기 때문입니다.
  • 비유: "이 길은 막혔어!"라고 안내받았지만, 그 길의 지도를 너무 오래 보고 있어서, 새로운 길을 찾을 때 여전히 그 막힌 길의 방향을 따라가려는 것과 같습니다.

🛠️ 해결책은 있을까? (현재 상태)

연구진은 두 가지 방법을 시도해 보았습니다.

  1. **문맥 청소 **(Context Denoising)

    • AI 에게 "틀린 부분은 지우고, 좋은 부분만 골라내서 다시 써봐"라고 시켰습니다.
    • 결과: 조금 나아졌지만, 완전히 원래 실력으로 돌아오지는 못했습니다.
  2. **특별 훈련 **(Targeted Fine-tuning)

    • AI 에게 "틀린 답을 발견하면, **아예 처음부터 다시 시작하는 **(Clean-Slate)을 훈련시켰습니다.
    • 결과: 틀린 답을 볼 때의 실수는 줄어들었지만, 정답이 있는 문맥을 볼 때는 오히려 그 정답을 활용하지 못하고 버리는 부작용이 생겼습니다.

결론: 현재 기술로는 틀린 문맥의 영향을 완전히 없애기가 매우 어렵습니다. AI 는 틀린 정보를 보고 그 '흔적'을 지우기보다, 그 구조에 매몰되는 경향이 강합니다.


💡 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 가 스스로를 개선하는 과정 **(Self-Improvement)이라고 경고합니다.

  • 우리가 배워야 할 점: AI 를 훈련시키거나 사용할 때, 단순히 "틀린 답을 보여주고 고쳐라"라고만 하면 안 됩니다. 틀린 답의 '흔적'이 남지 않도록 문맥을 깨끗하게 정리하거나, AI 가 틀린 답을 발견했을 때 완전히 새로운 사고방식으로 전환할 수 있도록 도와주는 새로운 기술이 필요합니다.

한 줄 요약:

"AI 는 틀린 답을 보고 '이건 틀렸어'라고 말하면서도, 무의식적으로 그 틀린 답의 방식을 따라 하다가 실수를 반복합니다. 이것이 바로 '문맥의 끌림'입니다."