PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Each language version is independently generated for its own context, not a direct translation.

🧠 비유: "유능한 물류 관리팀" vs "망가진 AI 비서"

기존의 AI 에이전트들은 마치 기억력이 나쁜 비서와 같습니다.

문제 1 (기억력 저하): 지시사항이 하나만 있을 때는 잘 따르지만, 조건이 10 개로 늘어나면 "어디서 들은 것 같은데?"라며 헷갈려서 틀린 답을 내놓습니다. (자연어 기반 지식의 한계)
문제 2 (혼란): "오늘은 비가 오니까 우산을 챙겨라"라고 적혀 있는데, 비서 책상 위에는 "비가 와도 우산 안 써도 돼"라는 낡은 메모가 붙어있으면, AI 는 둘 중 무엇을 믿어야 할지 몰라 당황합니다.
문제 3 (변화 적응): 환경이 변해도 (예: 우산이 금지된 날이 생김) AI 는 예전 습관을 고집하다가 실패를 반복합니다.

PRECEPT는 이런 비서를 **정교하게 훈련된 '물류 관리팀'**으로 바꿉니다. 이 팀은 세 가지 강력한 규칙을 따릅니다.

1. 📂 "정확한 파일 검색실" (Deterministic Retrieval)

기존 AI 는 "우산"이라는 키워드로 메모장을 뒤지다가 관련 없는 메모까지 섞어서 읽습니다. 하지만 PRECEPT 는 **정확한 파일 번호 (키)**를 입력하면 1 초 만에 딱 맞는 파일을 꺼냅니다.

비유: 도서관에서 "우산"이라고 검색하면 관련 책 100 권이 다 나옵니다. 하지만 PRECEPT 는 "우산 - 비 - 서울 - 오늘"이라는 정확한 바코드를 찍으면, 그 조건에 딱 맞는 단 한 권의 책만 바로 꺼내줍니다.
효과: 조건이 10 개로 늘어나도 실수가 0% 가 됩니다. (기존 방식은 94% 실수)

2. ⚖️ "신뢰도 심판단" (Conflict Resolution)

새로운 정보 (실제 경험) 와 낡은 정보 (구 문서) 가 충돌할 때, PRECEPT 는 심판단을 엽니다.

비유: "어제 비가 와서 우산을 썼다" (새 정보) vs "우산은 금지다" (낡은 문서) 가 충돌하면, PRECEPT 는 **"실제 경험 (새 정보) 을 더 신뢰한다"**고 판단합니다.
작동 원리: AI 는 과거의 실패 경험을 기록해두고, 만약 낡은 문서 때문에 실패하면 그 문서를 "오류"로 표시하고 무시합니다. 마치 **레드 퀸 (Red Queen)**처럼, 끊임없이 변화하는 적 (새로운 상황) 에 맞서기 위해 과거의 기록을 계속 업데이트하는 것입니다.

3. 🔄 "스마트 명령어 업데이트" (COMPASS)

AI 가 실수를 하면, 단순히 "다시 해봐"라고 하는 게 아니라, 실수를 분석해서 시스템의 '지시문 (프롬프트)' 자체를 고쳐줍니다.

비유: 요리사가 레시피를 잘못 따라 실패하면, 단순히 "조금 더 끓여봐"가 아니라 "레시피 책자 자체를 수정해서 다음엔 절대 같은 실수를 안 하도록" 합니다.
특징: 이 과정은 AI 가 스스로 실패를 분석하고, 가장 효율적인 해결책을 찾아내어 시스템의 두뇌를 업그레이드합니다.

🏆 PRECEPT 가 이룬 놀라운 성과

이 시스템은 실제 실험에서 기존 AI 들보다 압도적인 성과를 냈습니다.

첫 시도 성공률 41% 향상: 기존 AI 들이 10 번 중 5 번 정도 성공하는 반면, PRECEPT 는 10 번 중 9 번 이상 첫 시도에서 성공했습니다.
복잡한 상황에도 강함: 조건이 10 개로 늘어나도 성능이 떨어지지 않았습니다. (기존 AI 는 조건이 늘어나면 성능이 폭락함)
변화에 빠르게 적응: 환경이 바뀌었을 때, 낡은 규칙을 버리고 새로운 규칙을 배우는 속도가 훨씬 빨랐습니다.
단계 수 61% 감소: 같은 일을 하더라도 훨씬 적은 노력 (단계) 으로 문제를 해결했습니다.

💡 핵심 교훈: "크기보다 구조"

이 논문의 가장 중요한 메시지는 **"더 큰 AI 모델을 만드는 것보다, AI 의 구조를 더 잘 짜는 것이 중요하다"**는 점입니다.

기존에는 "AI 에게 더 많은 데이터를 먹이자"라고 했지만, PRECEPT 는 **"AI 가 정보를 찾는 방식, 기억하는 방식, 실수를 교정하는 방식을 체계적으로 설계하자"**고 말합니다. 마치 거대한 도서관을 무작정 늘리는 대신, 정확한 검색 시스템과 신뢰할 수 있는 관리 시스템을 갖춘 도서관을 만드는 것이 더 효율적이라는 것입니다.

한 줄 요약:

PRECEPT 는 AI 가 헷갈리지 않고, 낡은 정보를 버리며, 새로운 상황에 빠르게 적응하도록 돕는 **'체계적인 사고의 구조'**를 제공하여, AI 가 현실 세계의 복잡한 문제를 해결할 수 있게 만든 혁신적인 프레임워크입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 LLM 에이전트 (자연어 기반 지식 저장 및 추론을 사용하는 에이전트) 는 다음과 같은 근본적인 한계에 직면해 있습니다:

조건 수 증가에 따른 검색 성능 저하: 자연어로 저장된 지식을 검색할 때, 조건 (condition) 의 수가 증가하면 LLM 의 해석 오류가 기하급수적으로 증가합니다. (예: 조건이 10 개일 때 부분 일치 오류율이 94.4% 에 달함)
규칙 조합의 불신뢰성: 학습된 개별 규칙들을 복잡한 정책으로 조합 (composition) 하는 과정에서 실패율이 높습니다.
지식 노후화 및 적대적 지식 감지 부재: 환경 변화 (Drift) 로 인해 오래된 규칙이 유효하지 않게 되거나, 적대적인 정적 지식 (오류가 포함된 레거시 문서 등) 이 시스템에 침투했을 때 이를 감지하고 무효화하는 메커니즘이 부족합니다.
샘플 비효율성: 강화학습 (RL) 은 재학습 없이 적응이 불가능하며 샘플 효율성이 매우 낮습니다.

2. 방법론 (Methodology)

PRECEPT 는 테스트 시간 적응 (Test-Time Adaptation) 을 위한 통합 프레임워크로, 세 가지 긴밀하게 결합된 구성 요소를 통해 위 문제들을 해결합니다.

A. 결정론적 정밀 일치 규칙 검색 (Deterministic Exact-Match Retrieval)

구조화된 조건 키 (Structured Condition Keys): 자연어 검색 대신 해시 기반의 정밀 일치 (Exact-match) 를 사용하여 $O(1)$ 복잡도로 규칙을 검색합니다.
의미 계층 구조 (Semantic Tier Hierarchy): 안전 (Safety), 준수 (Compliance), 선호도 (Preferences) 등의 계층적 우선순위를 정의하여, 여러 규칙이 충돌할 때 결정론적으로 해결합니다.
효과: 조건 수 ( $N$ ) 가 증가해도 해석 오류가 0% 를 유지하며, $N$ 개의 원자 규칙 (Atomic Rules) 으로 $2^N-1$개의 복합 시나리오를 커버할 수 있는 조합 일반화 (Compositional Generalization) 를 가능하게 합니다.

B. Evo-Memory 및 충돌 인식 메모리 (Conflict-Aware Memory)

적대적/동적 지식 충돌 해결 (Type I Conflict): 정적 지식 (레거시 문서) 과 동적 경험 (실시간 실행 결과) 간 충돌을 감지하기 위해 6 가지 앙상블 검출기를 사용합니다.
베이지안 신뢰도 및 톰슨 샘플링: 소스별 신뢰도를 베이지안 분포 (Beta Distribution) 로 모델링하고, 톰슨 샘플링을 통해 동적 경험을 정적 지식보다 우선시하거나, 신뢰도가 낮은 규칙을 무효화합니다.
Drift Adaptation (Type II Conflict): 환경 변화로 인한 규칙 노후화를 감지하기 위해 실패 횟수 임계값 ( $\theta=2$ ) 과 신뢰도 감쇠 (Confidence Decay) 메커니즘을 도입합니다. 실패 시 규칙을 즉시 무효화하고 재학습을 유도합니다.
RefineInterceptor: 실패한 옵션을 영구적으로 제외 (Pruning) 하여 순환적 실패 (Cyclic Failures) 를 방지합니다.

C. COMPASS (Complexity-Optimized Multi-strategy Pareto Adaptive Search)

이중 주파수 적응 레이어:
- 고주파 (High-Frequency): 매 단계에서 실행되는 경량 모니터링 (제약 조건 확인, 패턴 학습).
- 저주파 (Low-Frequency): 이벤트 발생 시 (새 규칙 발견, 목표 실패 등) 실행되는 프롬프트 진화 (Prompt Evolution).
Pareto 최적 선택: 성공률과 단계 효율성 (Step Efficiency) 을 다목적 최적화하여 프롬프트를 진화시킵니다.
검증된 진화 (Verified Evolution): LLM 이 직접 점수를 매기는 것이 아니라, 실제 환경 실행 결과 (성공/실패 이진 신호) 를 기반으로 프롬프트를 개선하여 편향을 제거합니다.

3. 주요 기여 (Key Contributions)

결정론적 검색을 통한 조합 규칙 학습: $O(1)$ 정밀 일치 검색과 의미 계층 구조를 통해 해석 오류를 제거하고, $N$ 개의 규칙으로 지수적 ($2^N$) 인 조합 커버리지를 달성했습니다.
통합 충돌 해결 및 드리프트 적응: 정적/동적 지식 충돌 (Type I) 과 환경 드리프트 (Type II) 를 하나의 프레임워크 내에서 베이지안 추론과 임계값 기반 무효화로 처리합니다. 이론적으로 드리프트 복원력이 64 배 향상됨을 증명했습니다.
COMPASS 프롬프트 진화 프레임워크: 단순한 프롬프트 스코어링이 아닌, 전체 파이프라인을 통한 실행 기반 검증과 Pareto 최적화를 통해 에이전트의 전략을 진화시킵니다.

4. 실험 결과 (Results)

PRECEPT 는 3 가지 도메인 (통합, 예약, 물류) 에서 강화된 Baseline (Full Reflexion, ExpeL) 과 비교하여 다음과 같은 성과를 보였습니다:

초기 성공률 (First-try Success): Full Reflexion 대비 평균 +41.1%p 향상 (통계적으로 유의미, $p<0.001$ ).
조합 일반화 (Compositional Generalization): Baseline 대비 +33.3%p 향상. 특히 2 가지 조건 물류 조합에서 **100%**의 초기 성공률을 기록했습니다.
지속적 학습 (Continuous Learning): 배포 중 순차적 학습 시 +40~55%p의 성능 향상.
적대적 지식 하의 강건성: 적대적인 정적 지식 (Adversarial Static Knowledge) 이 존재할 때도 최종 성공률 (Eventual Robustness) 에서 높은 복원력을 보였습니다.
드리프트 복구 (Drift Recovery): 환경 변화 후 성능 회복력이 +55.0%p에 달했습니다.
효율성: 평균 단계 수 (Steps) 가 Baseline 대비 61% 감소했습니다.

5. 의의 및 결론 (Significance)

구조적 신뢰성: PRECEPT 는 모델의 규모나 프롬프트 엔지니어링에 의존하는 것이 아니라, 구조화된 아키텍처 (결정론적 검색, 베이지안 충돌 해결, 명시적 규칙 무효화) 를 통해 LLM 에이전트의 신뢰성을 보장합니다.
실무 적용 가능성: 물류, 의료 규정 준수, 금융 규제 등 고위험 (High-stakes) 분야에서 LLM 에이전트의 배포를 가능하게 합니다.
진화적 컴퓨팅의 구조화: '디지털 레드 퀸 (Digital Red Queen)' 이론을 LLM 에이전트 아키텍처에 적용하여, 적대적 환경에서도 생존 가능한 시스템을 구축하는 새로운 패러다임을 제시합니다.
해석 가능성: 블랙박스 RL 과 달리, 학습된 규칙이 명시적으로 저장되고 감사 (Audit) 가 가능하여 책임 있는 AI 배포를 지원합니다.

이 논문은 LLM 에이전트가 복잡한 동적 환경에서 신뢰할 수 있고, 적응적이며, 효율적으로 작동하기 위해서는 자연어 기반의 추론만으로는 부족하며, 구조화된 규칙과 결정론적 메커니즘이 필수적임을 강력하게 주장합니다.