Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?

본 논문은 클라우드 시스템의 자동화된 근본 원인 분석 (RCA) 에서 LLM 기반 에이전트가 모델의 성능과 무관하게 공유된 아키텍처 결함으로 인해 체계적으로 실패하는 원인을 규명하고, 프롬프트 엔지니어링보다는 에이전트 간 통신 프로토콜 개선이 더 효과적인 해결책임을 입증했습니다.

Taeyoon Kim, Woohyeok Park, Hoyeong Yun, Kyungyong Lee

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏭 배경: 거대한 공장의 고장

현대 클라우드 시스템은 거대한 공장처럼 수천 개의 부품 (마이크로서비스) 이 서로 연결되어 돌아갑니다. 이 공장에 고장이 나면 돈이 엄청나게 날아갑니다. 그래서 고장의 **진짜 원인 (Root Cause)**을 찾아내는 '수리 작업'이 필수적입니다.

최근에는 AI(거대 언어 모델) 를 이 수리 작업에 투입했는데, 문제는 AI 가 고장 원인을 찾아내는 정확도가 매우 낮다는 것입니다. (정확도 3.9%~12.5% 수준)

🔍 연구의 핵심: "정답만 보는 게 아니라, '왜' 틀렸는지 보자"

기존 연구들은 AI 가 "정답을 맞췄는지"만 확인했습니다. 하지만 이 논문은 **"AI 가 수리 과정에서 어디서, 어떻게 실수를 했는지"**를 아주 자세히 파헤쳤습니다.

연구진은 5 가지 다른 AI 모델에게 335 가지의 고장 사례를 해결하게 시켰고, 총 1,675 번의 수리 과정을 기록했습니다. 그 결과, AI 가 빠지는 **12 가지의 치명적인 함정 (Pitfall)**을 찾아냈습니다.

🕵️‍♂️ AI 가 자주 빠지는 3 가지 함정 (비유로 설명)

1. 혼자 생각하는 실수 (Intra-Agent Pitfalls)

수석 기사 (컨트롤러) 가 혼자서 데이터를 해석할 때 생기는 실수입니다.

  • 환각 (Hallucination): AI 는 마치 마법사처럼, 실제 데이터에 없는 이야기를 지어냅니다. "CPU 사용량이 높네? 아, 메모리 문제가 있겠군!"이라고 데이터를 보고도 엉뚱한 결론을 내립니다. (가장 흔한 실수, 71%)
  • 탐색 부족 (Incomplete Exploration): 안일한 탐정처럼, 중요한 단서 (네트워크 로그 등) 는 무시하고 가장 눈에 띄는 단서 (CPU) 만 봅니다. "이거만 보면 되겠지?"라고 생각하다가 진짜 원인을 놓칩니다.
  • 증상과 원인 혼동: "머리가 아픈데 (증상), 약을 먹으면 낫겠지?"라고 생각하지만, 진짜 원인은 "뇌종양"일 수 있습니다. AI 는 표면적인 증상만 보고 고장 원인으로 착각합니다.

2. 서로 대화할 때 생기는 오해 (Inter-Agent Pitfalls)

수리 작업은 '지시하는 기사 (컨트롤러)'와 '코드를 실행하는 견습공 (익시큐터)'이 팀을 이뤄 합니다. 이 둘이 대화할 때 문제가 생깁니다.

  • 지시와 실행의 불일치: 기사가 "빨간 버튼을 눌러라"라고 말했는데, 견습공은 "파란 버튼을 누르겠다"고 착각합니다. 자연어 (말) 로만 대화하다 보니 맥락이 사라져서 엉뚱한 코드를 작성합니다.
  • 무의미한 반복: 견습공이 실패한 방법을 기사가 모르고, 같은 실수를 반복하게 됩니다. "또 실패했네? 다시 해봐!"를 무한 반복하다가 시간이 다 떨어집니다.

3. 작업 환경과의 충돌 (Agent-Environment Pitfalls)

  • 메모리 폭주: 견습공이 작업 중이던 데이터를 계속 쌓아두다가, 컴퓨터 메모리가 터져버립니다 (OOM). 수리 과정이 아예 중단됩니다.

💡 해결책: "말을 더 잘하게 하는 것" vs "시스템을 고치는 것"

연구진은 이 문제들을 해결하기 위해 두 가지 방법을 실험했습니다.

❌ 방법 1: "더 잘 설명해줘" (프롬프트 엔지니어링)

AI 에게 "잘 봐, 착각하지 마, 모든 데이터를 확인해"라고 더 자세히 지시하는 것을 시도했습니다.

  • 결과: 실패했습니다. AI 는 "알겠습니다"라고 대답하지만, 실제로는 여전히 환각을 일으키거나 데이터를 잘못 해석했습니다. 말만 잘한다고 문제가 해결되지 않습니다.

✅ 방법 2: "작업 과정을 투명하게 공유해" (시스템 구조 개선)

기사와 견습공이 자연어 (말) 만 주고받는 게 아니라, 작성한 '코드'와 '실행 결과 (오류 메시지)'를 그대로 보여주고 대화하게 했습니다.

  • 결과: 대폭 성공했습니다!
    • 기사가 "아, 네가 쓴 코드가 내 지시와 달라서 실패했구나!"라고 바로 알 수 있게 되었습니다.
    • 오류가 15% 이상 줄어들었고, 수리 정확도도 올라갔으며, 작업 시간도 22% 단축되었습니다.
    • 메모리 폭주 문제는 '메모리 감시관'을 붙여서 해결했습니다.

📝 결론: 왜 이 연구가 중요한가?

이 논문은 **"AI 가 똑똑해지면 다 해결될 거야"**라는 생각을 깨뜨립니다.

  1. 모델의 능력보다 '시스템'이 문제다: 아무리 똑똑한 AI 모델을 써도, **협업 방식 (대화 구조)**이 나쁘면 실패합니다.
  2. 말 (프롬프트) 로는 안 된다: AI 에게 "조심해"라고 말하는 것만으로는 해결되지 않습니다.
  3. 구조가 답이다: AI 들이 서로의 작업 내용 (코드, 데이터) 을 투명하게 공유하고, 오류를 바로잡을 수 있는 구조를 만들어야만 클라우드 고장 수리가 가능해집니다.

한 줄 요약:

"AI 수리공들이 고장 원인을 못 찾는 건, 그들이 멍청해서가 아니라 서로 대화하는 방식이 엉망이기 때문입니다. 말을 더 잘하게 하는 게 아니라, 작업 과정을 투명하게 공유하게 하는 시스템을 바꿔야 합니다."