Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

이 논문은 LLM 기반 웹 에이전트의 실패 원인을 고수준 계획, 저수준 실행, 재계획의 계층적 관점에서 분석하여, 고수준 추론 개선뿐만 아니라 지각적 기반과 적응적 제어 능력 향상이 인간 수준의 신뢰성 달성에 필수적임을 규명합니다.

Mohamed Aghzal, Gregory J. Stein, Ziyu Yao

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"왜 AI 웹 에이전트 (웹을 서핑하는 로봇) 는 인간처럼 일을 잘 못 할까?"**라는 질문에 답하기 위해 쓴 연구입니다.

기존에는 "과제를 성공적으로 끝냈는지 (성공/실패)"만 보았지만, 이 연구는 왜 실패했는지 그 과정을 세 단계로 나누어 자세히 분석했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🏗️ 비유: "고급 건축가 vs. 현장 노동자"

이 논문의 핵심은 웹 에이전트를 건물을 짓는 팀으로 상상하는 것입니다.

  1. 고급 건축가 (High-level Planning): "우선 기초를 다지고, 2 층을 올린 뒤, 창문을 달자"라는 **큰 그림 (전략)**을 그리는 역할입니다.
  2. 현장 노동자 (Low-level Execution): "벽돌 하나를 들어 올리고, 시멘트를 바르고, 망치를 두드리는" 구체적인 행동을 수행하는 역할입니다.
  3. 현장 감독 (Replanning): "아, 벽돌이 떨어졌네? 아니면 설계도가 잘못됐네? 그럼 다시 계획을 수정하자"라고 실수를 바로잡는 역할입니다.

연구진은 이 세 가지 역할이 각각 어떻게 작동하는지, 그리고 어디가 문제인지 살펴봤습니다.


🔍 주요 발견 3 가지

1. 건축가의 설계도: "말 (자연어) 보다 도면 (PDDL) 이 낫다"

  • 문제: AI 가 계획을 세울 때, 우리가 말로 하는 것처럼 "가격이 싼 것부터 정렬하고, 그중 첫 번째를 고르자"라고 말로만 쓰면 (자연어), AI 는 너무 구체적이거나 불필요한 세부사항을 섞어서 설계도를 그립니다. 마치 "벽돌을 100 개 가져와라"라고 말하면, AI 가 "벽돌을 100 개 가져와라. 그중 빨간 벽돌은 50 개, 회색은 50 개..."라고 과하게 설명하는 꼴입니다.
  • 해결: 연구진은 PDDL이라는 공식적인 도면 언어를 사용하게 했습니다. 이는 건축 도면처럼 "기초 -> 2 층 -> 창문"처럼 구조가 명확합니다.
  • 결과: 도면 (PDDL) 을 쓰면 AI 가 더 간결하고 목표에 맞는 전략을 세웠습니다. 하지만...

2. 노동자의 손발: "설계는 잘해도, 벽돌을 못 다듬는다" (가장 큰 병목)

  • 문제: 아무리 훌륭한 설계도 (전략) 를 줘도, **현장 노동자 (AI 의 실제 행동)**가 일을 제대로 못 합니다.
    • 착각 (Hallucination): "여기에 '구매' 버튼이 있겠지?"라고 생각했는데, 실제로는 '문의하기' 버튼인 경우.
    • 망설임 (Redundancy): 같은 버튼을 3 번이나 4 번이나 클릭하는 행동.
    • 방황 (Out-of-domain): "이 사이트에서 못 찾겠다" 싶으면 구글 검색을 하거나 다른 웹사이트로 날아가버리는 행동.
  • 결론: 가장 큰 문제는 '전략'이 아니라 '실행'입니다. AI 는 "무엇을 할지"는 알지만, "웹사이트 화면을 보고 실제로 클릭하고 입력하는" 감각 (Grounding) 이 인간보다 훨씬 떨어집니다.

3. 감독의 개입: "한 번의 수정으로 대박 난다"

  • 문제: 처음 계획이 틀려도, AI 는 그걸 모르고 계속 같은 실수를 반복합니다.
  • 해결: 연구진은 AI 에게 "지금 상황이 계획과 다르니, 다시 생각해보자"라고 알려주었습니다 (Replanning).
  • 결과: 단 한 번의 재계획 (Replanning) 만으로도 성공률이 크게 올라갔습니다. 처음에 엉뚱한 길로 갔더라도, 상황을 보고 계획을 수정하면 훨씬 잘 해냈습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 AI 개발자들에게 다음과 같은 조언을 합니다.

  1. 전략과 실행을 분리하자: "무엇을 할지 생각하게 하는 뇌"와 "실제로 클릭하게 하는 손"을 따로 훈련하고 평가해야 합니다.
  2. 눈 (Grounding) 을 키우자: AI 가 웹페이지를 보고 "이게 버튼이다"라고 정확히 파악하는 능력을 키워야 합니다.
  3. 실수를 인정하게 하자: AI 가 "이건 안 되네, 다른 방법을 써보자"라고 스스로 인정하고 계획을 수정할 수 있게 만들어야 합니다.

📝 한 줄 요약

"AI 웹 에이전트는 훌륭한 '건축가'가 될 수 있지만, 아직 '현장 노동자'로서는 손발이 덜 익어 있습니다. 그래서 더 정확한 도면 (PDDL) 과, 실수를 바로잡는 '감독 (Replanning)'이 필요합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →