Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

이 논문은 자연어 설명에 최소한의 심볼릭 정보를 추가하고 랜드마크나 VAL 계획 검증기 출력과 같은 다양한 심볼릭 피드백을 활용하여 휴리스틱 탐색을 수행함으로써, 에이전트 언어 모델 피드백 프레임워크를 통해 고품질의 계획 도메인을 생성하는 방법을 연구합니다.

James Oswald, Daniel Oblinsky, Volodymyr Varha, Vasilije Dragovic, Harsha Kokel, Kavitha Srinivas, Michael Katz, Shirin Sohrabi

게시일 2026-04-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능이 자연어로 된 설명을 읽고, 정확한 '계획 수립 규칙 (PDDL)'을 스스로 만들어내는 방법"**에 대한 연구입니다.

쉽게 비유하자면, 인공지능이 "주방에서 요리를 하라"는 말만 듣고, 요리사들이 따라야 할 정확한 레시피와 도구 사용법을 스스로 작성하는 과정이라고 생각하시면 됩니다. 하지만 AI 가 처음에 만든 레시피는 종종 "설탕을 넣으라"고 쓰여 있는데 실제로는 "소금"을 넣는 식으로 엉뚱한 오류를 범하곤 합니다.

이 논문은 이 오류를 어떻게 고쳐서 완벽한 레시피를 만들 수 있는지, 그리고 어떤 '피드백 (교정)' 방식이 가장 효과적인지를 실험했습니다.


🍳 핵심 비유: "요리 레시피 교정 프로젝트"

1. 문제 상황: AI 의 첫 번째 시도는 엉망입니다

AI 가 "주방에서 요리를 하라"는 말 (자연어) 을 듣고 규칙을 만들면, 문법적으로는 맞지만 논리적으로는 틀린 경우가 많습니다.

  • 예시: "냄비에 물을 넣고 끓여라"라고 썼는데, 실제 냄비가 없거나 물이 끓는 조건이 누락된 경우입니다.
  • 기존 연구: AI 가 만든 레시피를 사람이 직접 하나하나 읽어보며 고쳐주거나, 아주 단순한 오류만 찾아주는 방식이었습니다. 하지만 사람이 직접 고쳐주는 건 시간이 너무 오래 걸립니다.

2. 이 연구의 해결책: "스스로 고쳐주는 AI 팀"

연구진은 AI 가 만든 레시피를 스스로 검증하고 고칠 수 있는 시스템을 만들었습니다. 여기서 핵심은 **'피드백 (Feedback)'**입니다. 마치 요리사가 실패한 요리를 보고 "아, 소금 대신 설탕을 넣었구나"라고 알려주는 것과 같습니다.

이 논문은 두 가지 종류의 '교정 메시지'를 실험했습니다.

  • A. 랜드마크 피드백 (Landmark Feedback) = "필수 단계 체크리스트"

    • 비유: "요리할 때 반드시 거쳐야 하는 단계가 있어. 예를 들어 '양파를 먼저 볶아야 해' 또는 '마지막에 후추를 뿌려야 해' 같은 거야."
    • 효과: 전체적인 흐름을 놓치지 않도록 중요한 핵심 단계들을 알려줍니다.
  • B. 계획 검증 피드백 (Plan Validation) = "실제 요리 시연"

    • 비유: "이 레시피대로 따라 해보니까, 불을 켜기 전에 냄비가 없어서 실패했어. 혹은 마지막에 요리를 다 했는데 맛이 없었어."
    • 효과: 구체적인 행동 순서에서 어떤 단계가 잘못되었는지, 왜 실패했는지 상세하게 알려줍니다.

3. 새로운 아이디어: "우연히 고치는 게 아니라, 전략적으로 고치는 것"

기존 방식은 "실수한 것 중 하나를 무작위로 골라 고쳐봐"라고 했습니다. 하지만 이 논문은 **"어떤 교정 메시지를 주면 가장 빨리 완벽해질까?"**를 계산해서 고르는 지능적인 탐색 (Heuristic Search) 방식을 도입했습니다.

  • 비유:
    • 무작위 고치기 (Random Walk): "어디가 잘못됐을지 모르니, 일단 이 부분부터 고쳐봐. 안 되면 저 부분." (비효율적)
    • 전략적 고치기 (Heuristic Search): "이 레시피를 보면 '불 조절' 부분이 가장 치명적인 것 같아. 일단 이 부분부터 집중해서 고쳐보자. 그다음에 '재료 순서'를 보자." (효율적)

📊 실험 결과: 무엇이 가장 잘됐을까?

연구진은 다양한 AI 모델 (GPT-5 시리즈 등) 과 다양한 요리 상황 (블록 쌓기, 미로 찾기, 파크맨 게임 등) 에서 실험을 했습니다.

  1. 피드백은 필수입니다: 아무 말 없이 AI 가 처음에 쓴 레시피보다, 피드백을 주고 고친 레시피가 훨씬 정확했습니다.
  2. 두 가지 피드백을 섞으면 더 좋습니다: '필수 단계 체크리스트'와 '실제 시연 오류'를 모두 활용하면, 어느 한 가지만 쓸 때보다 더 좋은 결과를 냅니다.
  3. 전략이 중요합니다: 무작위로 고치는 것보다, "어떤 교정이 가장 효과적인지" 계산해서 고르는 방식이 전반적으로 더 좋았습니다.
    • 다만: 모든 경우에 전략이 무조건 좋은 건 아니었습니다. 어떤 복잡한 상황에서는 오히려 무작위로 고치는 게 더 빠르거나 잘 맞는 경우도 있었습니다. (마치 요리 종류에 따라 '전문가 조언'이 필요할 때도 있고, '직관'이 더 필요할 때가 있는 것과 비슷합니다.)

💡 결론 및 의의

이 연구는 **"AI 가 복잡한 규칙을 스스로 배우고 고칠 수 있다"**는 것을 증명했습니다.

  • 전문가 없이도 가능: 이제 복잡한 계획 수립 규칙을 만들 때, 인간 전문가가 일일이 코드를 짜거나 고칠 필요가 줄어듭니다. AI 가 자연어로 된 설명만 받아서, 스스로 피드백을 주고받으며 완벽한 규칙을 만들어냅니다.
  • 미래: 이 기술이 발전하면, 우리가 "자율주행차가 비 오는 날에 어떻게 운전해야 해?"라고 말만 해도, AI 가 그 상황을 위한 완벽한 안전 규칙과 행동 지침을 자동으로 만들어낼 수 있게 될 것입니다.

한 줄 요약:

"AI 가 만든 엉뚱한 규칙을, **'필수 체크리스트'**와 **'실제 시연 오류'**라는 두 가지 교정 도구로, 가장 효과적인 순서대로 고쳐주니 완벽한 규칙이 만들어졌다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →