Localizing and Correcting Errors for LLM-based Planners

이 논문은 LLM 기반 계획자가 도메인 제약을 위반하는 오류를 해결하기 위해, 실패한 단계에 국한된 최소한의 입력 - 출력 예제를 주입하는 '국소화 인-컨텍스트 학습 (L-ICL)' 기법을 제안하여 기존 방법보다 훨씬 높은 유효한 계획 생성 성공률을 달성했다고 요약할 수 있습니다.

Aditya Kumar, William W. Cohen

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 1. 문제: "똑똑한 학생이 벽을 뚫고 지나가요"

우리는 LLM 이 수학이나 코딩은 잘하지만, '기존의 규칙 (물리 법칙)'을 지키는 계획을 세우는 데는 약하다는 것을 발견했습니다.

  • 상황: LLM 에게 "벽이 있는 미로에서 A 지점에서 B 지점으로 가라"고 시켰습니다.
  • 실수: LLM 은 "벽을 통과해서 가자!"거나 "손에 물건을 들고 있는데 또 다른 물건을 집자!" 같은 불가능한 행동을 제안합니다.
  • 원인: LLM 은 규칙을 '알고'는 있지만, 실제 계획을 세울 때 그 규칙을 일관되게 적용하지 못합니다. 마치 시험지를 풀 때 "벽은 통과할 수 없다"는 문제를 읽었음에도, 막상 풀다가 잊어버리고 벽을 통과하는 길을 그리는 것과 같습니다.

기존의 해결책인 "완전한 정답 예시 20,000 자를 보여줘" (RAG-ICL) 는 효과가 별로 없었습니다. 길이가 긴 정답 예시를 보여줘도, LLM 은 "아, 이렇게 가면 되네"는 전체 흐름만 보고, 왜 특정 단계에서 벽을 통과하면 안 되는지 그 '세부 이유'를 놓쳐버리기 때문입니다.


🛠️ 2. 해결책: L-ICL (국소적 문맥 학습)

저자들은 **"전체 정답을 외우게 하는 게 아니라, 틀린 순간마다 '단 한 줄'의 피드백을 주는 것"**이 훨씬 효과적이라고 제안합니다. 이를 **L-ICL (Localized In-Context Learning)**이라고 부릅니다.

🍳 요리 비유: "요리책 vs. 실수 교정"

  • 기존 방법 (전체 예시): 요리사가 실수를 할 때마다, "이 요리를 처음부터 끝까지 완벽하게 만든 요리사 100 명의 레시피"를 보여줍니다.
    • 결과: 요리사는 "아, 다들 이렇게 만들었구나"라고 생각하지만, 내가 방금 소금을 너무 많이 넣은 이유는 정확히 모릅니다.
  • 새로운 방법 (L-ICL): 요리사가 소금을 너무 많이 넣었을 때, "소금 1 큰술만 넣으세요"라고 그 순간, 그 행동에 딱 맞는 작은 메모를 붙여줍니다.
    • 결과: 요리사는 "아, 이 상황에서 소금은 1 큰술이구나!"라고 바로 깨닫고, 다음엔 그 규칙을 따릅니다.

이 방법은 틀린 첫 번째 단계를 찾아내어, 그 단계만 올바르게 수행하는 예시 (입력 -> 올바른 출력) 를 추가해 줍니다. 이걸 반복하면 LLM 은 점점 더 많은 '틀린 순간의 교정 메모'를 학습하게 됩니다.


📊 3. 놀라운 결과: 적은 정보로 큰 효과

이 방법은 놀라울 정도로 효율적입니다.

  • 비교: 20,000 자 분량의 긴 정답 예시 (기존 방법) 를 주는 것보다, **2,000 자 분량의 짧은 '틀린 부분 교정 메모' (L-ICL)**를 주는 것이 훨씬 더 좋은 결과를 냅니다.
  • 성공률: 8x8 크기의 간단한 미로에서, 아무것도 가르치지 않았을 때 성공률이 **0%**였는데, L-ICL 로 60 개의 작은 교정 예시만 학습시켰을 때 성공률이 **89%**까지 치솟았습니다.

🎓 4. 핵심 통찰: "단위 테스트"의 힘

저자들은 이 방법을 소프트웨어 공학의 **'단위 테스트 (Unit Test)'**에 비유합니다.

  • 전체 테스트 (기존 방법): 프로그램이 끝까지 잘 돌아가는지 확인하는 것. (결과 위주)
  • 단위 테스트 (L-ICL): 프로그램의 각 작은 부품 (함수) 이 제 역할을 하는지 하나하나 확인하는 것. (과정 위주)

LLM 이 계획을 세울 때, 전체가 잘 돌아가는 것보다 각 단계 (벽을 통과하지 않기, 물건을 들기 등) 가 규칙을 지키는지 확인하는 것이 훨씬 중요합니다. L-ICL 은 LLM 의 각 '행동 단계'를 단단하게 (Hardening) 만들어주는 역할을 합니다.

💡 요약

  1. 문제: LLM 은 규칙을 알고 있으면서도, 계획을 세울 때 규칙을 어깁니다 (벽 통과 등).
  2. 해결: 긴 정답 예시 대신, 실수한 순간마다 "이건 안 돼, 저렇게 해"라는 짧은 교정 예시를 계속 추가합니다.
  3. 효과: 아주 적은 양의 정보 (60 개 예시) 만으로도 LLM 이 규칙을 철저히 지키게 되어, 미로 찾기나 퍼즐 풀기 성공률이 비약적으로 상승합니다.
  4. 비유: "전체 요리 레시피를 통째로 외우게 하는 것"보다, "실수할 때마다 '소금 1 큰술만 넣으세요'라고 메모해 주는 것"이 더 현명합니다.

이 연구는 LLM 이 단순히 "지식"을 많이 아는 것을 넘어, 실제 행동할 때 그 지식을 올바르게 적용하는 법을 가르치는 새로운 길을 제시합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →