Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

이 논문은 PDDL 시뮬레이션 엔진을 통해 LLM 이 단계별 상호작용 방식으로 계획을 수립하는 방식을 평가한 결과, 고전적 기법보다 성공률은 약간 높았으나 비용 효율성은 낮았으며, 특히 외부 검증이 부재한 PDDL 환경에서는 에이전트적 접근의 이점이 제한적임을 실증적으로 규명했습니다.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 로봇과 인공지능의 미로 찾기

로봇이 어떤 목표를 달성하려면 (예: "블록을 쌓아 탑을 만들어라"), 어떤 순서로 행동을 해야 할지 계획을 세워야 합니다.

  • 전통적인 방법 (Fast Downward): 이건 완벽한 지도를 가진 수학 천재입니다. 미로 전체를 한눈에 보고, 가장 빠른 길을 계산해서 딱딱 정해줍니다. 빠르고 정확하지만, 계산하는 데 시간이 걸릴 수 있습니다.
  • 새로운 방법 (LLM, 대형 언어 모델): 이건 책만 많이 읽은 상상력 풍부한 친구입니다. 수학 공식은 잘 모지만, 세상에 대한 지식이 많아서 "아, 이런 상황엔 보통 이렇게 하더라"라고 추측합니다.

2. 실험: 두 가지 전략의 대결

연구자들은 이 '상상력 친구 (LLM)'에게 두 가지 방식으로 미로 찾기를 시켰습니다.

A. 한 번에 다 외우기 (Direct Planning)

  • 상황: 친구에게 "미로 지도를 보여줄 테니, 시작부터 끝까지 가는 길 전체를 한 번에 말해봐"라고 합니다.
  • 결과: 친구가 "아, 이거 내가 본 적이 있어!"라고 외워서 답을 내놓으면 성공. 하지만 틀리면, "아, 다시 생각해 볼게"라고 처음부터 다시 시작합니다.
  • 비유: 시험지 한 장을 보고 답안지를 한 번에 다 채우는 방식입니다. 틀리면 지우고 다시 씁니다.

B. 한 걸음씩 확인하기 (Agentic Planning, 이 연구의 핵심)

  • 상황: 친구에게 "한 걸음만 먼저 가봐. 그다음 내가 '여기서 막혔다'거나 '이쪽으로 가'라고 알려줄게. 그걸 보고 다음 걸음을 정해"라고 합니다.
  • 도구 (PyPDDLEngine): 연구자들은 친구가 한 걸음씩 움직일 수 있게 해주는 새로운 게임 도구를 만들었습니다. 이 도구는 친구가 한 행동을 실행하고, 그 결과를 바로바로 알려줍니다.
  • 비유: 미로에 들어가서 한 걸음씩 걸으며, "아, 여기 벽이 있네? 그럼 뒤로 한 발 물러서 다른 길로 가자"라고 실시간으로 수정하는 방식입니다.

3. 실험 결과: 어떤 게 더 잘했을까?

연구진은 102 개의 미로 (블록 월드 문제) 를 풀게 했고, 180 초라는 시간 제한을 두었습니다.

  • 수학 천재 (전통적 방법): 85% 성공. 매우 안정적입니다.
  • 한 번에 외우기 (LLM 직접): 64% 성공.
  • 한 걸음씩 확인하기 (LLM 에이전트): 67% 성공.

결론: "한 걸음씩 확인하기" 방식이 "한 번에 외우기"보다 조금 더 (3% 포인트) 잘했습니다. 하지만 그 대가로 비용 (토큰 사용량) 은 5.7 배나 더 들었습니다.

4. 놀라운 발견: 왜 '한 걸음씩'이 더 잘할까? (그리고 왜 더 이상하지 않을까?)

여기서 가장 재미있는 부분이 나옵니다.

① 계획의 질은 비슷했다?
두 LM 방식이 모두 성공한 경우를 비교해보니, 한 걸음씩 확인하는 방식이 더 짧은 길을 찾지 못했습니다. 오히려 전통적인 수학 천재가 "시간이 걸려도 더 짧은 길을 찾아보자"라고 노력했을 때, LLM 들은 그보다 더 짧은 길을 찾아내기도 했습니다.

  • 이유: LLM 이 미로를 '생각'해서 찾은 게 아니라, 과거에 본 비슷한 미로의 답을 기억해낸 (기억력) 것일 가능성이 큽니다. 그래서 한 걸음씩 확인해도, 이미 기억해둔 답을 그대로 따라가는 것이었습니다.

② 왜 '한 걸음씩' 확인하는 게 coding(코딩) 에서는 대박인데 여기선 실패?

  • 코딩 에이전트: 코드를 짜고 실행하면 "에러가 났다!"라는 명확한 신호가 옵니다. "이 줄이 틀렸어"라고 알려주니까 고치기 쉽습니다.
  • 미로 찾기 (PDDL): 한 걸음 움직였을 때, "벽에 부딪혔다"는 신호는 오지만, **"지금 목표에서 얼마나 멀어졌는지", "이 길이 맞는지"**에 대한 명확한 신호는 오지 않습니다.
  • 비유: 코딩은 "이제 100m 남았어, 10m 더 가면 돼"라고 알려주는 나침반이 있는 반면, 미로 찾기는 "벽에 부딪혔어"라는 소리만 들을 뿐, "너 지금 목표에서 멀어지고 있어"라는 말은 듣지 못합니다. 그래서 친구가 "아, 내가 잘못했나?"라고 스스로 판단해야 하는데, 그 판단이 틀리는 경우가 많았습니다.

5. 핵심 교훈: "스스로 판단하는 것"은 위험하다

이 연구는 우리에게 중요한 메시지를 줍니다.

"인공지능이 스스로 한 걸음씩 걸어가면서 계획을 세우려면, 단순히 '지금 상태'만 알려주는 게 아니라, '지금 목표에 가까워지고 있는가?'라는 명확한 피드백이 필요합니다."

로봇을 만들 때, 인공지능에게 "지금 어디에 있니?"라고만 묻는 게 아니라, **"지금 목표에 가까워지고 있어, 잘하고 있어!"**라고 알려주는 센서나 시스템이 함께 있어야 한다는 뜻입니다.

요약

  1. 실험: 인공지능이 미로를 풀 때, 한 번에 다 외우는 게 나을까, 한 걸음씩 확인하며 가는 게 나을까?
  2. 결과: 한 걸음씩 확인하는 방식이 조금 더 잘했지만, 비용은 훨씬 비쌌습니다.
  3. 이유: 인공지능은 미로를 '생각'해서 푼 게 아니라, 과거에 본 답을 기억해서 푼 것 같습니다.
  4. 교훈: 인공지능이 스스로 길을 찾게 하려면, "너 지금 잘하고 있어/틀렸어"라는 명확한 외부 신호가 꼭 필요합니다. 그렇지 않으면 스스로 판단하다가 길을 잃기 쉽습니다.

이 연구는 인공지능이 로봇으로 실생활에 적용될 때, 단순히 "똑똑한 두뇌"만 있는 게 아니라, **그 두뇌가 상황을 올바르게 판단할 수 있도록 도와주는 '눈'과 '귀' (피드백 시스템)**가 얼마나 중요한지를 보여줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →