PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

이 논문은 LLM 에이전트의 지식 검색 저하, 규칙 조합 실패, 그리고 노후화된 지식 탐지 부재 문제를 해결하기 위해, 결정론적 규칙 검색, 충돌 인식 메모리, 그리고 파레토 기반 프롬프트 진화를 통합한 테스트 시간 적응 프레임워크인 PRECEPT 를 제안하고, 이를 통해 기존 방법 대비 우수한 성능과 강건성을 입증합니다.

Arash Shahmansoori

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 비유: "유능한 물류 관리팀" vs "망가진 AI 비서"

기존의 AI 에이전트들은 마치 기억력이 나쁜 비서와 같습니다.

  • 문제 1 (기억력 저하): 지시사항이 하나만 있을 때는 잘 따르지만, 조건이 10 개로 늘어나면 "어디서 들은 것 같은데?"라며 헷갈려서 틀린 답을 내놓습니다. (자연어 기반 지식의 한계)
  • 문제 2 (혼란): "오늘은 비가 오니까 우산을 챙겨라"라고 적혀 있는데, 비서 책상 위에는 "비가 와도 우산 안 써도 돼"라는 낡은 메모가 붙어있으면, AI 는 둘 중 무엇을 믿어야 할지 몰라 당황합니다.
  • 문제 3 (변화 적응): 환경이 변해도 (예: 우산이 금지된 날이 생김) AI 는 예전 습관을 고집하다가 실패를 반복합니다.

PRECEPT는 이런 비서를 **정교하게 훈련된 '물류 관리팀'**으로 바꿉니다. 이 팀은 세 가지 강력한 규칙을 따릅니다.


1. 📂 "정확한 파일 검색실" (Deterministic Retrieval)

기존 AI 는 "우산"이라는 키워드로 메모장을 뒤지다가 관련 없는 메모까지 섞어서 읽습니다. 하지만 PRECEPT 는 **정확한 파일 번호 (키)**를 입력하면 1 초 만에 딱 맞는 파일을 꺼냅니다.

  • 비유: 도서관에서 "우산"이라고 검색하면 관련 책 100 권이 다 나옵니다. 하지만 PRECEPT 는 "우산 - 비 - 서울 - 오늘"이라는 정확한 바코드를 찍으면, 그 조건에 딱 맞는 단 한 권의 책만 바로 꺼내줍니다.
  • 효과: 조건이 10 개로 늘어나도 실수가 0% 가 됩니다. (기존 방식은 94% 실수)

2. ⚖️ "신뢰도 심판단" (Conflict Resolution)

새로운 정보 (실제 경험) 와 낡은 정보 (구 문서) 가 충돌할 때, PRECEPT 는 심판단을 엽니다.

  • 비유: "어제 비가 와서 우산을 썼다" (새 정보) vs "우산은 금지다" (낡은 문서) 가 충돌하면, PRECEPT 는 **"실제 경험 (새 정보) 을 더 신뢰한다"**고 판단합니다.
  • 작동 원리: AI 는 과거의 실패 경험을 기록해두고, 만약 낡은 문서 때문에 실패하면 그 문서를 "오류"로 표시하고 무시합니다. 마치 **레드 퀸 (Red Queen)**처럼, 끊임없이 변화하는 적 (새로운 상황) 에 맞서기 위해 과거의 기록을 계속 업데이트하는 것입니다.

3. 🔄 "스마트 명령어 업데이트" (COMPASS)

AI 가 실수를 하면, 단순히 "다시 해봐"라고 하는 게 아니라, 실수를 분석해서 시스템의 '지시문 (프롬프트)' 자체를 고쳐줍니다.

  • 비유: 요리사가 레시피를 잘못 따라 실패하면, 단순히 "조금 더 끓여봐"가 아니라 "레시피 책자 자체를 수정해서 다음엔 절대 같은 실수를 안 하도록" 합니다.
  • 특징: 이 과정은 AI 가 스스로 실패를 분석하고, 가장 효율적인 해결책을 찾아내어 시스템의 두뇌를 업그레이드합니다.

🏆 PRECEPT 가 이룬 놀라운 성과

이 시스템은 실제 실험에서 기존 AI 들보다 압도적인 성과를 냈습니다.

  1. 첫 시도 성공률 41% 향상: 기존 AI 들이 10 번 중 5 번 정도 성공하는 반면, PRECEPT 는 10 번 중 9 번 이상 첫 시도에서 성공했습니다.
  2. 복잡한 상황에도 강함: 조건이 10 개로 늘어나도 성능이 떨어지지 않았습니다. (기존 AI 는 조건이 늘어나면 성능이 폭락함)
  3. 변화에 빠르게 적응: 환경이 바뀌었을 때, 낡은 규칙을 버리고 새로운 규칙을 배우는 속도가 훨씬 빨랐습니다.
  4. 단계 수 61% 감소: 같은 일을 하더라도 훨씬 적은 노력 (단계) 으로 문제를 해결했습니다.

💡 핵심 교훈: "크기보다 구조"

이 논문의 가장 중요한 메시지는 **"더 큰 AI 모델을 만드는 것보다, AI 의 구조를 더 잘 짜는 것이 중요하다"**는 점입니다.

기존에는 "AI 에게 더 많은 데이터를 먹이자"라고 했지만, PRECEPT 는 **"AI 가 정보를 찾는 방식, 기억하는 방식, 실수를 교정하는 방식을 체계적으로 설계하자"**고 말합니다. 마치 거대한 도서관을 무작정 늘리는 대신, 정확한 검색 시스템과 신뢰할 수 있는 관리 시스템을 갖춘 도서관을 만드는 것이 더 효율적이라는 것입니다.

한 줄 요약:

PRECEPT 는 AI 가 헷갈리지 않고, 낡은 정보를 버리며, 새로운 상황에 빠르게 적응하도록 돕는 **'체계적인 사고의 구조'**를 제공하여, AI 가 현실 세계의 복잡한 문제를 해결할 수 있게 만든 혁신적인 프레임워크입니다.