GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

이 논문은 대규모 언어 모델 (LLM) 을 활용한 진화 알고리즘을 통해 PDDL 로 기술된 고전적 계획 작업에 대해 다양한 문제 인스턴스에서 최적의 해결책을 생성하는 일반화된 계획자 'GenePlan'을 제안하며, 기존 최첨단 계획자와 유사한 성능을 보이고 다른 LLM 기반 방법론보다 월등히 우수한 결과를 입증했습니다.

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"GenePlan(진화적 계획가)"**이라는 새로운 시스템을 소개합니다. 이 시스템은 거대한 인공지능 (LLM) 의 지능과 자연선택의 원리를 섞어서, 복잡한 문제 해결 방법을 자동으로 만들어냅니다.

일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제: "지도 없이 길을 찾는 것"

상상해 보세요. 여러분이 낯선 도시에서 목적지까지 가는 방법을 찾아야 합니다. 하지만 여기엔 두 가지 방식이 있습니다.

  • 기존 방식 (LLM 만 사용): "AI 에게 물어봐!"라고 하면, AI 가 "아, 여기가 저기야!"라고 말해줍니다. 하지만 AI 는 가끔 엉뚱한 길로 가거나, 너무 길고 비효율적인 길을 제안하기도 합니다. (논문에 따르면, AI 만으로는 계획 수립 능력이 아직 부족합니다.)
  • 기존 방식 (전통적 알고리즘): 수천 년 동안 개발된 정교한 수학 공식을 써서 길을 찾습니다. 매우 정확하지만, 계산하는 데 시간이 오래 걸리고, 그 결과가 왜 그런지 사람이 이해하기 어렵습니다.

2. 해결책: "진화하는 요리사" (GenePlan)

GenePlan 은 이 두 가지의 장점을 합칩니다. 마치 수천 명의 요리사들이 모여서 '최고의 레시피'를 개발하는 과정과 같습니다.

  1. 초기 아이디어 (요리사 모집): 먼저 AI 가 다양한 '요리 레시피 (코드)'를 몇 개 만들어냅니다. 처음엔 다들 엉성하고 실패할 수도 있는 레시피들입니다.
  2. 시식과 평가 (시험): 이 레시피들을 실제 문제 (예: 물건을 옮기는 게임) 에 적용해 봅니다.
    • "이 레시피로 만든 요리는 너무 길게 걸려서 실패야!" (점수 낮음)
    • "이 레시피는 짧고 깔끔하게 성공했어!" (점수 높음)
  3. 자연선택 (진화): 점수가 낮은 레시피는 버리고, 점수가 높은 레시피들을 '부모'로 뽑습니다.
  4. 혼합과 변이 (새로운 시도): AI 는 이 좋은 레시피들을 섞어보고 (교차), 약간의 변화를 주어 (돌연변이) 더 나은 새로운 레시피를 만듭니다.
    • 예시: "A 요리사의 '재료 손질법'과 B 요리사의 '불 조절법'을 섞어보자. 그리고 소금 양을 살짝 줄여보자."
  5. 반복: 이 과정을 수십 번 반복하면, 처음엔 엉망이었던 레시피들이 점점 더 짧고 효율적인 '최고의 레시피'로 진화합니다.

3. 결과: "한 번 배우면 영원한 전문가"

이 과정이 끝나면 GenePlan 은 완벽한 Python 코드 (레시피) 하나를 만들어냅니다.

  • 빠름: 이 코드를 만든 후에는, 새로운 문제가 들어와도 AI 가 다시 생각할 필요 없이, 이 코드가 0.5 초 만에 해결책을 내놓습니다. (전통적인 방식은 매번 계산해야 하므로 느립니다.)
  • 이해 가능: AI 가 만든 '블랙박스'가 아니라, 사람이 읽을 수 있는 Python 코드이므로 왜 그렇게 해결했는지 알 수 있습니다.
  • 비효율: 이 '레시피'를 개발하는 데 드는 비용은 약 1.82 달러 (약 2,500 원) 에 불과합니다.

4. 실험 결과

연구진은 8 가지 다른 게임 (등산, 페리 배, 엘리베이터 등) 에서 이 방법을 테스트했습니다.

  • 성공률: 최고의 전문가 (Fast Downward) 와 거의 비슷한 점수를 받았습니다. (91% vs 93%)
  • 기존 AI 와 비교: 그냥 AI 에게 "생각해서 답해줘"라고 한 것 (Chain-of-Thought) 보다 훨씬 더 잘했습니다. (91% vs 64%)

5. 한계와 미래

물론 모든 문제에 이 방법이 좋은 것은 아닙니다.

  • 예외: 어떤 문제는 (예: 소코반 게임처럼 돌을 밀어 넣는 게임) 한 번 실수하면 되돌릴 수 없는 경우가 있습니다. 이런 복잡한 문제에서는 여전히 전통적인 '계산기' 방식이 더 나을 수 있습니다.
  • 미래: 앞으로는 AI 가 "이 문제는 GenePlan 이 해결하고, 저 문제는 계산기로 해결하자"라고 스스로 판단하게 만들거나, 더 좋은 해결책을 찾기 위해 '조기 종료' 기능을 추가할 계획입니다.

요약

GenePlan은 AI 에게 "한 번에 정답을 외우게" 하는 게 아니라, **"수천 번의 시행착오를 통해 스스로 가장 좋은 해결책을 진화시켜서, 그 해결책을 하나의 프로그램으로 남기는 시스템"**입니다. 한 번 만들어두면 저렴하고 빠르며, 사람도 이해할 수 있는 완벽한 해결책을 제공합니다.