The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "LLM(거대 언어 모델) 에이전트가 복잡한 일을 할 때, 왜 시간이 길어질수록 자꾸 망치는지" 그 원인을 파헤친 연구입니다.

비유하자면, 이 연구는 "똑똑한 비서가 간단한 주문은 잘하지만, 며칠 걸리는 복잡한 여행 계획을 짜다 보면 왜 자꾸 실수를 반복하는지" 그 비밀을 밝히는 과정과 같습니다.

주요 내용을 쉽게 풀어서 설명해 드릴게요.

1. 문제: "짧은 길은 잘 가는데, 긴 길은 왜 막히지?"

지금까지 AI 비서들은 "커피 한 잔 사오기" 같은 짧은 작업은 아주 잘해냈습니다. 하지만 "새로운 앱 개발해서 배포하기"나 "복잡한 데이터 분석해서 보고서 쓰기"처럼 수십, 수백 단계가 필요한 긴 작업 (Long-Horizon Task) 을 시키면, AI 는 자꾸 길을 잃거나 엉뚱한 행동을 합니다.

기존 연구들은 "성공했는가, 실패했는가"만 보았습니다. 하지만 이 논문은 "어디서, 왜, 어떻게 실패하는가?" 를 자세히 분석했습니다.

2. 해결책: 'HORIZON'이라는 새로운 진단 도구

연구팀은 HORIZON이라는 새로운 진단 시스템을 만들었습니다.

비유: 자동차가 고속도로를 달릴 때, 단순히 "고장 났다"고만 말하는 게 아니라, "엔진 과열인가? 타이어 마모인가? 운전자의 피로인가?"를 단계별로 체크하는 정밀 진단 키트입니다.
이 도구를 통해 AI 가 수행하는 작업을 단계별로 늘려가며 (1 단계, 2 단계, 10 단계...), 언제부터 AI 가 무너지는지, 어떤 종류의 실수가 늘어나는지 관찰했습니다.

3. 발견: AI 가 무너지는 7 가지 이유 (실패 유형)

연구팀은 AI 의 실패 원인을 7 가지 카테고리로 정리했습니다. 마치 의사가 환자의 증상을 분류하듯 말이죠.

환경 오해 (Environment Error): "방금 화면이 바뀌었는데, AI 는 여전히 예전 화면을 보고 있어요." (예: 웹페이지가 로딩 중인데 AI 는 이미 다 로드된 줄 알고 클릭함)
지시 오해 (Instruction Error): "사용자가 '비싼 거 말고'라고 했는데, AI 는 '비싼 거'를 골라요." (명령을 제대로 못 듣거나, 일부만 이해함)
계획 실수 (Planning Error): "집에 가려면 지하철을 타고, 버스를 타고, 걸어가는 순서인데, AI 는 버스를 먼저 타고 지하철을 놓쳐요." (작업 순서를 잘못 짬)
과거 망각 (Catastrophic Forgetting): "처음에 '비밀번호는 절대 말하지 마라'고 했는데, 대화 100 번 뒤에는 그걸 까먹고 비밀번호를 말해요." (긴 대화 중 중요한 규칙을 잊어버림)
잘못된 가정 (False Assumption): "데이터베이스에 '생년월일' 컬럼이 있을 거라고 AI 가 착각해서, 없는 컬럼을 찾으러 다님." (없는 것을 있는 것처럼 착각함)
실수 누적 (History Error Accumulation): "작은 실수 하나를 고치지 않고 계속 진행하다 보니, 그 실수가 커져서 전체가 망가짐." (초반의 작은 실수가 나중에 큰 사고로 이어짐)
기억 한계 (Memory Limitation): "할 일이 너무 많아서 머릿속이 꽉 차서, 처음에 들은 중요한 지시사항이 지워져버림." (기억 용량이 부족함)

4. 실험 결과: "머리만 키운다고 해결되지 않아요"

연구팀은 최신 AI 모델 (GPT-5, Claude 등) 로 실험을 했습니다. 결과는 놀라웠습니다.

단순히 AI 를 더 똑똑하게 만드는 것 (모델 크기 키우기) 만으로는 긴 작업을 잘하게 할 수 없습니다.
작업이 길어질수록 AI 는 계획을 세우는 능력과 오래된 정보를 기억하는 능력에서 큰 한계를 보였습니다.
특히, 작은 실수가 하나라도 생기면, 그 실수가 다음 단계로 넘어가면서 기하급수적으로 커져서 전체 작업을 망치는 경우가 가장 많았습니다.

5. 결론 및 제언: "똑똑한 비서"를 만드는 새로운 방법

이 연구는 우리에게 중요한 메시지를 줍니다.

단순한 능력 향상은 부족합니다: AI 를 더 많이 훈련시키는 것만으로는 해결되지 않습니다.
새로운 설계가 필요합니다:
- 계획을 잘 세우는 능력: 큰 일을 작은 단계로 나누고, 순서를 잘 지키는 능력.
- 기억을 잘 관리하는 능력: 긴 대화 중에도 중요한 규칙을 잊지 않고 챙기는 능력.
- 실수 수정 능력: 중간에 실수가 생기면 바로 멈추고 고치는 능력.

요약

이 논문은 "AI 가 긴 작업을 할 때 왜 자꾸 망치는지" 그 원인을 7 가지 유형으로 명확히 분류하고, 단순히 AI 를 더 똑똑하게 만드는 것만으로는 해결되지 않으며, 계획과 기억, 실수 수정에 초점을 맞춘 새로운 설계가 필요하다고 말합니다.

마치 장거리 마라톤을 뛰는 선수를 키울 때, 단순히 "달리는 속도"만 높이는 게 아니라 "체력 관리", "전략", "부상 예방"을 함께 훈련시켜야 하듯이, AI 에이전트도 긴 작업을 완수할 수 있는 체계적인 훈련이 필요하다는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: Long-Horizon Task Mirage? (장기적 작업의 미라지? 에이전트 시스템이 어디서, 왜 붕괴하는지 진단)

이 논문은 대형 언어 모델 (LLM) 기반 에이전트가 단기 및 중기 작업에서는 뛰어난 성능을 보이지만, 장기적 (Long-Horizon) 작업 (연속적이고 상호 의존적인 행동 시퀀스가 필요한 작업) 에서는 체계적으로 실패하는 현상을 규명하기 위해 작성되었습니다. 저자들은 단순히 성공률만 보고하는 기존 벤치마크의 한계를 지적하고, HORIZON이라는 새로운 진단용 벤치마크와 분석 프레임워크를 제안합니다.

1. 문제 정의 (Problem)

장기적 작업의 취약성: LLM 에이전트는 단일 단계나 짧은 시퀀스 작업에서는 잘 수행되지만, 수십 단계 이상의 복잡한 작업으로 확장되면 성능이 급격히 저하됩니다.
진단의 부재: 현재까지의 연구는 도메인별 벤치마크에 국한되어 있으며, '작업의 길이 (Horizon)'를 통제된 변수로 다루지 못합니다. 또한, 실패 원인을 체계적으로 분류하고 비교할 수 있는 공통된 프레임워크가 부족합니다.
미라지 (Mirage) 현상: 에이전트가 단기 작업에서는 안정적으로 작동하는 것처럼 보이지만, 작업의 길이가 길어질수록 실패의 양상과 원인이 근본적으로 달라지며, 단순한 모델 크기 확장 (Scaling) 만으로는 해결되지 않는 구조적 한계가 존재합니다.

2. 방법론 (Methodology)

저자들은 HORIZON (Holistic Observations for Reasoning and faIlure analyZis in lOng-horizoN agents) 이라는 진단 프레임워크를 도입했습니다.

가. 작업 수평선 (Horizon) 의 정의 및 구성

내재적 수평선 ( $H^*$ ): 에이전트와 무관하게 작업을 완료하는 데 필요한 최적의 최소 행동 수를 정의합니다.
구성 깊이 (Compositional Depth, $s$ ): 중첩된 하위 목표나 조건부 분기의 수를 측정합니다.
통제된 확장 (Controlled Extension):
- 깊이 확장 (Depth Extension): 기존 작업 사이에 필수적인 중간 단계를 추가하여 $s$ 를 증가시킵니다.
- 넓이 확장 (Breadth Extension): 여러 독립적인 하위 작업을 하나의 워크플로우로 결합하여 $s$ 를 증가시킵니다.
이를 통해 도메인 (Web, OS, Embodied, Database) 간에 수평선을 통제된 방식으로 확장하여 에이전트 성능 저하 패턴을 분석합니다.

나. 7 가지 실패 분류 체계 (Failure Taxonomy)

FMEA(Failure Mode and Effects Analysis) 에 기반하여 에이전트 실패를 7 가지 범주로 분류했습니다. 이는 상호 배타적이지 않으며, 하나의 실패 경로에 여러 범주가 중첩될 수 있습니다.

Environment (환경): 환경의 불확실성, 지연, 또는 에이전트가 감지하지 못한 상태 변화.
Instruction (지시): 지시의 모호성, 불완전한 이해, 또는 제약 조건 누락.
False Assumption (잘못된 가정): 환경 상태에 대한 검증 없이 잘못된 전제를 기반으로 행동.
Planning Error (계획 오류): 하위 목표 분해 실패, 순서 오류, 또는 비효율적인 계획 수립.
Catastrophic Forgetting (치명적 망각): 긴 작업 흐름 속에서 초기에 설정된 제약 조건이나 지시를 잊어버림.
History Error Accumulation (이력 오류 누적): 초기의 작은 실수가 후속 단계로 전파되어 누적됨.
Memory Limitation (메모리 한계): 컨텍스트 창 초과로 인한 정보 손실 또는 요약 과정에서의 핵심 정보 누락.

다. 실험 설정

데이터셋: WebArena, AgentBench, MAC-SQL, IsaacSim 등 4 가지 도메인에서 3,100 개 이상의 에이전트 행동 궤적 (Trajectories) 수집.
모델: GPT-5 변형 (GPT-5-mini) 및 Claude-4 (Claude-4-Sonnet) 등 최첨단 모델 평가.
평가 도구: LLM-as-a-Judge 파이프라인을 개발하여 대규모 궤적 데이터를 자동으로 분석하고 실패 원인을 분류했습니다. 인간 어노테이터와의 일치도 (Human-Judge $\kappa=0.84$ ) 를 통해 신뢰성을 검증했습니다.

3. 주요 결과 (Key Results)

가. 성능 저하 패턴 (Non-linear Degradation)

비선형 붕괴: 작업 수평선 ( $s$ ) 이 증가함에 따라 성공률은 서서히 떨어지는 것이 아니라, 특정 임계점을 넘어서면 급격히 붕괴합니다.
도메인별 차이:
- Web: 매우 짧은 수평선에서도 성능이 급격히 떨어집니다.
- OS 및 Database: 중간 수준의 수평선까지는 견디다가 이후 급감합니다.
- Embodied: 최소한의 단계 증가에도 불구하고 매우 가파르게 성능이 저하됩니다.
모델 간 격차 축소: 장기적 실패 영역 (Breaking Region) 에 진입하면, 모델 간의 성능 차이가 사라지고 모두 낮은 성공률로 수렴합니다. 이는 모델 크기 확장만으로는 장기적 문제 해결이 어렵다는 것을 시사합니다.

나. 실패 구성의 구조적 변화

단기 작업에서는 환경 오류나 지시 오해가 주를 이루지만, 장기 작업으로 갈수록 '계획 오류 (Planning Errors)'와 '메모리 관련 오류 (Catastrophic Forgetting, Memory Limitation)'가 지배적이 됩니다.
특히 계획 오류는 초기 단계에서 발생하여 하위 단계로 전파되어 되돌릴 수 없는 실패로 이어지는 경우가 많습니다.
치명적 망각은 작업이 길어질수록 초기 제약 조건이 컨텍스트에서 소실되거나 주의가 분산되면서 빈번히 발생합니다.

다. 도메인별 실패 특성

Embodied & Database: 거의 대부분이 '계획 오류'로 인해 실패합니다 (각각 94.9%, 79.3%). 이는 정밀한 행동 순서와 논리적 분해가 필수적인 도메인 특성 때문입니다.
Web: 계획 오류가 주를 이루지만, 환경 변화 (Environment) 와 메모리 한계 (Memory Limitation) 도 상당 부분 차지합니다.
OS: 실패 유형이 가장 다양하게 나타납니다 (계획, 지시, 환경, 메모리 등).

4. 기여 (Contributions)

HORIZON 벤치마크 도입: 도메인 간 비교가 가능하도록 체계적으로 장기적 작업을 구성하고, 에이전트 실패를 분석하는 최초의 진단용 벤치마크를 제안했습니다.
통제된 실증 연구: 4 가지 도메인과 2 가지 최첨단 모델 가족을 대상으로 3,100 개 이상의 궤적을 분석하여, 장기적 작업에서의 일관된 성능 저하 패턴과 실패 구성의 변화를 규명했습니다.
확장 가능한 실패 진단 파이프라인: 인간 어노테이터와 높은 일치도를 보이는 LLM-as-a-Judge 시스템을 구축하여, 대규모 에이전트 실패 데이터를 체계적으로 분류하고 진단할 수 있는 방법을 제시했습니다.
실천적 통찰: 단순한 모델 스케일링 (Scaling) 이 장기적 신뢰성을 보장하지 않으며, 계획 (Planning), 메모리 (Memory), 실행 시간 제어 (Execution-time control) 에 대한 방법론적 개선이 필요함을 강조했습니다.

5. 의의 및 결론 (Significance)

이 논문은 장기적 에이전트 연구의 패러다임을 '성공률 중심'에서 '실패 진단 및 구조적 분석'으로 전환할 것을 촉구합니다.

방법론적 기여: 장기적 작업의 '붕괴 지점 (Breaking Point)'은 단일 임계값이 아니라 도메인과 모델에 의존적인 '전이 영역 (Transition Region)'임을 보여주었습니다.
미래 방향: 향후 에이전트 시스템 개발은 더 큰 모델보다는 계층적 하위 계획 (Hierarchical Subplanning), 실행 중 계획 검증 및 복구, 장기적 제약 조건을 보존하는 메모리 메커니즘에 초점을 맞춰야 함을 시사합니다.
오픈 소스: HORIZON 리더보드와 관련 리소스를 공개하여 커뮤니티의 참여와 지속적인 연구를 장려하고 있습니다.

결론적으로, 이 연구는 LLM 에이전트가 복잡한 현실 세계 작업을 수행할 때 직면하는 근본적인 한계를 체계적으로 진단하고, 이를 해결하기 위한 구체적인 설계 지침을 제공한다는 점에서 중요한 의의를 가집니다.