The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

이 논문은 LLM 에이전트의 장기 과업 실패를 체계적으로 진단하기 위해 새로운 벤치마크 'HORIZON'과 실패 원인 분석 파이프라인을 제안하고, 이를 통해 다양한 에이전트 모델의 성능 저하 패턴을 규명했습니다.

Xinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak

게시일 2026-04-15
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "LLM(거대 언어 모델) 에이전트가 복잡한 일을 할 때, 왜 시간이 길어질수록 자꾸 망치는지" 그 원인을 파헤친 연구입니다.

비유하자면, 이 연구는 "똑똑한 비서가 간단한 주문은 잘하지만, 며칠 걸리는 복잡한 여행 계획을 짜다 보면 왜 자꾸 실수를 반복하는지" 그 비밀을 밝히는 과정과 같습니다.

주요 내용을 쉽게 풀어서 설명해 드릴게요.


1. 문제: "짧은 길은 잘 가는데, 긴 길은 왜 막히지?"

지금까지 AI 비서들은 "커피 한 잔 사오기" 같은 짧은 작업은 아주 잘해냈습니다. 하지만 "새로운 앱 개발해서 배포하기"나 "복잡한 데이터 분석해서 보고서 쓰기"처럼 수십, 수백 단계가 필요한 긴 작업 (Long-Horizon Task) 을 시키면, AI 는 자꾸 길을 잃거나 엉뚱한 행동을 합니다.

기존 연구들은 "성공했는가, 실패했는가"만 보았습니다. 하지만 이 논문은 "어디서, 왜, 어떻게 실패하는가?" 를 자세히 분석했습니다.

2. 해결책: 'HORIZON'이라는 새로운 진단 도구

연구팀은 HORIZON이라는 새로운 진단 시스템을 만들었습니다.

  • 비유: 자동차가 고속도로를 달릴 때, 단순히 "고장 났다"고만 말하는 게 아니라, "엔진 과열인가? 타이어 마모인가? 운전자의 피로인가?"를 단계별로 체크하는 정밀 진단 키트입니다.
  • 이 도구를 통해 AI 가 수행하는 작업을 단계별로 늘려가며 (1 단계, 2 단계, 10 단계...), 언제부터 AI 가 무너지는지, 어떤 종류의 실수가 늘어나는지 관찰했습니다.

3. 발견: AI 가 무너지는 7 가지 이유 (실패 유형)

연구팀은 AI 의 실패 원인을 7 가지 카테고리로 정리했습니다. 마치 의사가 환자의 증상을 분류하듯 말이죠.

  1. 환경 오해 (Environment Error): "방금 화면이 바뀌었는데, AI 는 여전히 예전 화면을 보고 있어요." (예: 웹페이지가 로딩 중인데 AI 는 이미 다 로드된 줄 알고 클릭함)
  2. 지시 오해 (Instruction Error): "사용자가 '비싼 거 말고'라고 했는데, AI 는 '비싼 거'를 골라요." (명령을 제대로 못 듣거나, 일부만 이해함)
  3. 계획 실수 (Planning Error): "집에 가려면 지하철을 타고, 버스를 타고, 걸어가는 순서인데, AI 는 버스를 먼저 타고 지하철을 놓쳐요." (작업 순서를 잘못 짬)
  4. 과거 망각 (Catastrophic Forgetting): "처음에 '비밀번호는 절대 말하지 마라'고 했는데, 대화 100 번 뒤에는 그걸 까먹고 비밀번호를 말해요." (긴 대화 중 중요한 규칙을 잊어버림)
  5. 잘못된 가정 (False Assumption): "데이터베이스에 '생년월일' 컬럼이 있을 거라고 AI 가 착각해서, 없는 컬럼을 찾으러 다님." (없는 것을 있는 것처럼 착각함)
  6. 실수 누적 (History Error Accumulation): "작은 실수 하나를 고치지 않고 계속 진행하다 보니, 그 실수가 커져서 전체가 망가짐." (초반의 작은 실수가 나중에 큰 사고로 이어짐)
  7. 기억 한계 (Memory Limitation): "할 일이 너무 많아서 머릿속이 꽉 차서, 처음에 들은 중요한 지시사항이 지워져버림." (기억 용량이 부족함)

4. 실험 결과: "머리만 키운다고 해결되지 않아요"

연구팀은 최신 AI 모델 (GPT-5, Claude 등) 로 실험을 했습니다. 결과는 놀라웠습니다.

  • 단순히 AI 를 더 똑똑하게 만드는 것 (모델 크기 키우기) 만으로는 긴 작업을 잘하게 할 수 없습니다.
  • 작업이 길어질수록 AI 는 계획을 세우는 능력오래된 정보를 기억하는 능력에서 큰 한계를 보였습니다.
  • 특히, 작은 실수가 하나라도 생기면, 그 실수가 다음 단계로 넘어가면서 기하급수적으로 커져서 전체 작업을 망치는 경우가 가장 많았습니다.

5. 결론 및 제언: "똑똑한 비서"를 만드는 새로운 방법

이 연구는 우리에게 중요한 메시지를 줍니다.

  • 단순한 능력 향상은 부족합니다: AI 를 더 많이 훈련시키는 것만으로는 해결되지 않습니다.
  • 새로운 설계가 필요합니다:
    • 계획을 잘 세우는 능력: 큰 일을 작은 단계로 나누고, 순서를 잘 지키는 능력.
    • 기억을 잘 관리하는 능력: 긴 대화 중에도 중요한 규칙을 잊지 않고 챙기는 능력.
    • 실수 수정 능력: 중간에 실수가 생기면 바로 멈추고 고치는 능력.

요약

이 논문은 "AI 가 긴 작업을 할 때 왜 자꾸 망치는지" 그 원인을 7 가지 유형으로 명확히 분류하고, 단순히 AI 를 더 똑똑하게 만드는 것만으로는 해결되지 않으며, 계획과 기억, 실수 수정에 초점을 맞춘 새로운 설계가 필요하다고 말합니다.

마치 장거리 마라톤을 뛰는 선수를 키울 때, 단순히 "달리는 속도"만 높이는 게 아니라 "체력 관리", "전략", "부상 예방"을 함께 훈련시켜야 하듯이, AI 에이전트도 긴 작업을 완수할 수 있는 체계적인 훈련이 필요하다는 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →