Localizing and Correcting Errors for LLM-based Planners

Each language version is independently generated for its own context, not a direct translation.

🧩 1. 문제: "똑똑한 학생이 벽을 뚫고 지나가요"

우리는 LLM 이 수학이나 코딩은 잘하지만, '기존의 규칙 (물리 법칙)'을 지키는 계획을 세우는 데는 약하다는 것을 발견했습니다.

상황: LLM 에게 "벽이 있는 미로에서 A 지점에서 B 지점으로 가라"고 시켰습니다.
실수: LLM 은 "벽을 통과해서 가자!"거나 "손에 물건을 들고 있는데 또 다른 물건을 집자!" 같은 불가능한 행동을 제안합니다.
원인: LLM 은 규칙을 '알고'는 있지만, 실제 계획을 세울 때 그 규칙을 일관되게 적용하지 못합니다. 마치 시험지를 풀 때 "벽은 통과할 수 없다"는 문제를 읽었음에도, 막상 풀다가 잊어버리고 벽을 통과하는 길을 그리는 것과 같습니다.

기존의 해결책인 "완전한 정답 예시 20,000 자를 보여줘" (RAG-ICL) 는 효과가 별로 없었습니다. 길이가 긴 정답 예시를 보여줘도, LLM 은 "아, 이렇게 가면 되네"는 전체 흐름만 보고, 왜 특정 단계에서 벽을 통과하면 안 되는지 그 '세부 이유'를 놓쳐버리기 때문입니다.

🛠️ 2. 해결책: L-ICL (국소적 문맥 학습)

저자들은 **"전체 정답을 외우게 하는 게 아니라, 틀린 순간마다 '단 한 줄'의 피드백을 주는 것"**이 훨씬 효과적이라고 제안합니다. 이를 **L-ICL (Localized In-Context Learning)**이라고 부릅니다.

🍳 요리 비유: "요리책 vs. 실수 교정"

기존 방법 (전체 예시): 요리사가 실수를 할 때마다, "이 요리를 처음부터 끝까지 완벽하게 만든 요리사 100 명의 레시피"를 보여줍니다.
- 결과: 요리사는 "아, 다들 이렇게 만들었구나"라고 생각하지만, 내가 방금 소금을 너무 많이 넣은 이유는 정확히 모릅니다.
새로운 방법 (L-ICL): 요리사가 소금을 너무 많이 넣었을 때, "소금 1 큰술만 넣으세요"라고 그 순간, 그 행동에 딱 맞는 작은 메모를 붙여줍니다.
- 결과: 요리사는 "아, 이 상황에서 소금은 1 큰술이구나!"라고 바로 깨닫고, 다음엔 그 규칙을 따릅니다.

이 방법은 틀린 첫 번째 단계를 찾아내어, 그 단계만 올바르게 수행하는 예시 (입력 -> 올바른 출력) 를 추가해 줍니다. 이걸 반복하면 LLM 은 점점 더 많은 '틀린 순간의 교정 메모'를 학습하게 됩니다.

📊 3. 놀라운 결과: 적은 정보로 큰 효과

이 방법은 놀라울 정도로 효율적입니다.

비교: 20,000 자 분량의 긴 정답 예시 (기존 방법) 를 주는 것보다, **2,000 자 분량의 짧은 '틀린 부분 교정 메모' (L-ICL)**를 주는 것이 훨씬 더 좋은 결과를 냅니다.
성공률: 8x8 크기의 간단한 미로에서, 아무것도 가르치지 않았을 때 성공률이 **0%**였는데, L-ICL 로 60 개의 작은 교정 예시만 학습시켰을 때 성공률이 **89%**까지 치솟았습니다.

🎓 4. 핵심 통찰: "단위 테스트"의 힘

저자들은 이 방법을 소프트웨어 공학의 **'단위 테스트 (Unit Test)'**에 비유합니다.

전체 테스트 (기존 방법): 프로그램이 끝까지 잘 돌아가는지 확인하는 것. (결과 위주)
단위 테스트 (L-ICL): 프로그램의 각 작은 부품 (함수) 이 제 역할을 하는지 하나하나 확인하는 것. (과정 위주)

LLM 이 계획을 세울 때, 전체가 잘 돌아가는 것보다 각 단계 (벽을 통과하지 않기, 물건을 들기 등) 가 규칙을 지키는지 확인하는 것이 훨씬 중요합니다. L-ICL 은 LLM 의 각 '행동 단계'를 단단하게 (Hardening) 만들어주는 역할을 합니다.

💡 요약

문제: LLM 은 규칙을 알고 있으면서도, 계획을 세울 때 규칙을 어깁니다 (벽 통과 등).
해결: 긴 정답 예시 대신, 실수한 순간마다 "이건 안 돼, 저렇게 해"라는 짧은 교정 예시를 계속 추가합니다.
효과: 아주 적은 양의 정보 (60 개 예시) 만으로도 LLM 이 규칙을 철저히 지키게 되어, 미로 찾기나 퍼즐 풀기 성공률이 비약적으로 상승합니다.
비유: "전체 요리 레시피를 통째로 외우게 하는 것"보다, "실수할 때마다 '소금 1 큰술만 넣으세요'라고 메모해 주는 것"이 더 현명합니다.

이 연구는 LLM 이 단순히 "지식"을 많이 아는 것을 넘어, 실제 행동할 때 그 지식을 올바르게 적용하는 법을 가르치는 새로운 길을 제시합니다.

Localizing and Correcting Errors for LLM-based Planners

🧩 1. 문제: "똑똑한 학생이 벽을 뚫고 지나가요"

🛠️ 2. 해결책: L-ICL (국소적 문맥 학습)

🍳 요리 비유: "요리책 vs. 실수 교정"

📊 3. 놀라운 결과: 적은 정보로 큰 효과

🎓 4. 핵심 통찰: "단위 테스트"의 힘

💡 요약

논문 요약: LLM 기반 플래너의 오류 국소화 및 수정 (Localizing and Correcting Errors for LLM-based Planners)

1. 문제 정의 (Problem)

2. 제안 방법: L-ICL (Methodology)

핵심 메커니즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 한계 (Significance & Limitations)

의의

한계 및 향후 과제

Localizing and Correcting Errors for LLM-based Planners

🧩 1. 문제: "똑똑한 학생이 벽을 뚫고 지나가요"

🛠️ 2. 해결책: L-ICL (국소적 문맥 학습)

🍳 요리 비유: "요리책 vs. 실수 교정"

📊 3. 놀라운 결과: 적은 정보로 큰 효과

🎓 4. 핵심 통찰: "단위 테스트"의 힘

💡 요약

논문 요약: LLM 기반 플래너의 오류 국소화 및 수정 (Localizing and Correcting Errors for LLM-based Planners)

1. 문제 정의 (Problem)

2. 제안 방법: L-ICL (Methodology)

핵심 메커니즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 한계 (Significance & Limitations)

의의

한계 및 향후 과제

유사한 논문

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback