HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

이 논문은 예산과 다양성 같은 제약 조건을 가진 장거리 여행 계획 문제를 해결하기 위해, 전략적 조정과 병렬 실행을 결합하고 거래형 모니터링 및 협상 프로토콜을 통해 제약 준수를 보장하는 계층적 다중 에이전트 프레임워크 'HiMAP-Travel'을 제안하며, TravelPlanner 벤치마크에서 기존 Sequential 기반 방법론들을 크게 능가하는 성능을 입증합니다.

The Viet Bui, Wenjun Li, Yong Liu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

HiMAP-Travel: 여행 계획을 잘 짜는 '팀워크'의 비밀

이 논문은 인공지능 (AI) 이 장거리 여행을 계획할 때 자주 겪는 실수를 해결한 새로운 방법을 소개합니다. 마치 혼자서 모든 일을 다 하려다 지쳐서 실수하는 사람각자 역할을 나누어 맡아 완벽하게 협동하는 팀의 차이점을 설명한다고 생각하시면 됩니다.

🎒 문제: "혼자서 모든 걸 하려다 망친다" (기존 방식의 한계)

기존의 AI 여행 계획 프로그램은 보통 한 명의 AI가 처음부터 끝까지 모든 일정을 순서대로 짰습니다.

  • 상황: 1 일차부터 7 일차까지 계획을 세우는데, 1 일차에 너무 비싼 호텔을 예약해서 2 일차에 돈이 모자라게 됩니다.
  • 문제: AI 는 1 일차 계획을 세울 때는 "돈이 충분해"라고 생각했지만, 5 일차나 6 일차가 되면 기억이 흐려져서 (Context Drift) 처음에 정한 "총 예산 100 만 원"이라는 규칙을 잊어버립니다.
  • 결과: 여행 계획이 중간에 깨지거나, 예산을 초과하는 엉뚱한 결과가 나옵니다.

🏗️ 해결책: HiMAP-Travel (팀워크와 역할 분담)

이 논문은 HiMAP-Travel이라는 새로운 시스템을 제안합니다. 이는 한 명의 천재가 모든 것을 하는 대신, **팀장 (Coordinator)**과 **현장 직원들 (Executors)**이 협력하는 방식입니다.

1. 역할 분담 (팀장 vs 현장 직원)

  • 팀장 (Coordinator): "이번 여행은 총 3 일이고, 예산은 1700 달러야. 1 일차는 이동, 2 일차는 관광, 3 일차는 귀가야. 그리고 1 일차 예산은 600 달러 정도로 잡아줘."라고 **큰 그림 (전략)**을 그립니다.
  • 현장 직원들 (Executors): 팀장이 준 지침을 바탕으로 각 날짜별로 독립적으로 계획을 세웁니다.
    • 1 일차 팀원: "네, 1 일차만 집중해서 비행기 표와 저렴한 호텔을 찾겠습니다."
    • 2 일차 팀원: "저는 2 일차만 집중해서 맛집과 관광지를 찾겠습니다."
    • 장점: 1 일차 팀원이 2 일차 팀원의 일을 방해하지 않고, 서로의 기억 (문맥) 이 섞이지 않아 실수가 줄어듭니다.

2. 공유된 지갑 (동기화된 전역 상태)

여러 팀원이 동시에 일할 때 가장 큰 문제는 돈을 두 번 쓰는 것입니다.

  • 문제: 1 일차 팀원이 호텔을 예약하고, 2 일차 팀원도 같은 호텔을 예약할 수 있습니다.
  • 해결책 (동기화된 지갑): 모든 팀원은 **하나의 공유된 지갑 (Global State)**을 봅니다.
    • 1 일차 팀원이 호텔을 예약하면, 지갑에서 그 호텔 이름이 "예약됨"으로 표시되고 돈이 차감됩니다.
    • 2 일차 팀원이 같은 호텔을 찾으려 하면, 시스템이 **"이미 예약됐어요!"**라고 즉시 경고합니다.
    • 이는 마치 실시간으로 공유되는 엑셀 시트처럼 작동하여, 중복 예약이나 예산 초과를 막아줍니다.

3. 협상과 수정 (Bargaining Protocol)

만약 팀장이 "1 일차에 뉴욕으로 가라"고 지시했는데, 현장 직원이 "뉴욕은 너무 비싸서 예산이 부족합니다!"라고 말하면 어떨까요?

  • 기존 방식: 그냥 무조건 따르다가 나중에 예산이 모자라게 됩니다.
  • HiMAP-Travel 방식: 현장 직원이 **"이건 불가능합니다. 예산이 200 달러 부족해요"**라고 정중하게 보고합니다.
  • 팀장의 반응: 팀장은 즉시 계획을 수정합니다. "알겠어, 뉴욕 대신 더 저렴한 시카고로 바꾸자."
  • 협상 과정을 통해 처음부터 불가능한 계획을 바로잡아 줍니다.

🚀 왜 이 방식이 더 좋은가요?

  1. 병렬 처리 (동시 작업): 3 일짜리 여행을 계획할 때, 1 일차, 2 일차, 3 일차 팀원이 한 번에 동시에 계획을 세웁니다. 기존 방식처럼 하나씩 순서대로 하면 시간이 3 배 걸리지만, 이 방식은 2.5 배 이상 빨라집니다.
  2. 실수 방지: 팀장이 예산을 미리 나누어 주고, 공유 지갑이 중복을 막아주므로, 여행이 끝날 때까지 예산을 지키는 능력이 훨씬 뛰어납니다.
  3. 학습 효과: 이 시스템은 GRPO라는 학습 방법을 통해, 팀장과 직원들이 서로의 역할을 배우며 더 똑똑해집니다.

📊 실제 성과

이 시스템을 테스트한 결과, 기존 방식 (DeepTravel) 보다 성공률이 8.67% 더 높았고, 특히 예산을 지키는 능력은 약 2 배나 개선되었습니다. 또한, 여행 일정이 길어질수록 실수가 늘어나는 기존 방식과 달리, 이 방식은 일정이 길어져도 실수가 거의 늘지 않았습니다.

💡 요약

HiMAP-Travel은 "혼자서 모든 걸 하려다 지치는 AI"를 **"팀장님이 큰 그림을 그리고, 직원들이 동시에 일하며 서로의 실수를 막아주는 팀"**으로 바꾼 것입니다. 이를 통해 복잡한 여행 계획도 빠르고 정확하게, 예산을 지키며 완성할 수 있게 되었습니다.