Arbiter: Detecting Interference in LLM Agent System Prompts

이 논문은 LLM 기반 코딩 에이전트의 시스템 프롬프트 간섭 패턴을 탐지하기 위해 공식 평가 규칙과 다중 모델 스캐닝을 결합한 'Arbiter' 프레임워크를 제안하고, 주요 벤더들의 프롬프트에서 다양한 취약점을 발견하며 프롬프트 아키텍처와 실패 유형 간의 상관관계를 규명했습니다.

Tony Mason

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 문제: "지시문"이라는 헌법의 부실함

우리가 소프트웨어를 만들 때는 '컴파일러'나 '테스트 프로그램'을 돌려서 오류를 찾습니다. 하지만 AI 코딩 에이전트 (Claude Code, Codex, Gemini 등) 는 시스템 프롬프트라는 거대한 '지시문' 하나로 움직입니다.

이 지시문은 마치 **회사의 '헌법'**과 같습니다.

  • "항상 TodoWrite 도구를 써라"라고 한 구절이 있으면서,
  • 다른 구절에서는 "절대 TodoWrite 를 쓰지 마라"라고 적혀 있을 수 있습니다.

기존의 문제점:
AI 는 이런 모순을 발견하지 못합니다. 대신 "아, 아마도 이쪽이 더 중요할 거야"라고 **직관 (판단)**으로 넘겨버립니다. 그래서 오류가 발생해도 경고가 뜨지 않고, AI 는 조용히 실수를 저지릅니다. 마치 스스로를 감시할 수 없는 경비원과 같습니다.

🔍 2. 해결책: '아르비터 (Arbiter)'라는 새로운 검사관

저자들은 **'아르비터 (Arbiter)'**라는 새로운 시스템을 만들었습니다. 이 시스템은 두 가지 방식으로 AI 의 지시문을 검사합니다.

① 방향성 있는 검사 (Directed Evaluation): "규칙대로 찾아보기"

  • 비유: 수학 시험지 채점 같습니다.
  • "A 와 B 가 충돌하면 안 된다"라는 규칙을 정해두고, 지시문 전체를 훑어보며 규칙에 맞지 않는 부분을 찾아냅니다.
  • 결과: 명확한 모순 (예: "항상 써라" vs "절대 쓰지 마라") 을 빠짐없이 찾아냅니다.

② 방향 없는 수색 (Undirected Scouring): "호기심 많은 탐정들"

  • 비유: 여러 명의 탐정을 보내는 것 같습니다.
  • "이 문서를 자세히 읽어보고, 이상한 점을 발견하면 뭐든 말해줘"라고 vague(모호한) 지시를 내립니다.
  • 핵심: 서로 다른 AI 모델 (Claude, Gemini, Llama 등) 을 여러 명 부릅니다.
    • 왜? 한 AI 는 "문법 오류"만 보고, 다른 AI 는 "경제적 낭비"를 보고, 또 다른 AI 는 "보안 구멍"을 발견하기 때문입니다.
    • 서로 다른 관점을 가진 탐정들이 모여야 숨겨진 문제를 다 찾을 수 있습니다.

🏢 3. 발견된 사실: "건축 방식"이 실수의 종류를 결정한다

연구진은 세 가지 주요 AI 의 지시문을 분석했고, **지시문을 작성한 방식 (아키텍처)**에 따라 실수의 종류가 다르다는 것을 발견했습니다.

건축 스타일 비유 발생하는 실수
모놀리식 (Monolithic)
(Claude Code)
거대한 빌딩
한 번에 다 지어서 층층이 쌓음.
이음새에서의 충돌
각 층 (부서) 이 따로 지어졌기 때문에, 층과 층이 만나는 곳에서 "A 는 쓰지 마라"와 "B 는 써라"가 충돌합니다.
플랫 (Flat)
(Codex CLI)
작은 원룸
간단하고 복잡하지 않음.
단순함의 대가
복잡한 기능이 없어서 충돌은 적지만, "누가 이 일을 하는지"가 모호하거나 기능이 부족합니다.
모듈형 (Modular)
(Gemini CLI)
레고 조립
각각의 블록을 따로 만들어 합침.
조립 틈새의 결함
각 블록은 완벽하지만, 블록을 이어붙일 때 약속 (계약) 이 없어서 데이터가 사라지거나 충돌합니다.

💡 4. 놀라운 사례: 구글의 '숨겨진 버그'

가장 흥미로운 점은 구글의 Gemini CLI에서 발견된 문제입니다.

  • 발견: "사용자가 저장한 메모 (선호도) 가 역사 압축 과정에서 자동으로 삭제되는 구조적 결함이 있다"는 것을 아르비터가 찾아냈습니다.
  • 현실: 구글은 이 문제를 발견하고 '무한 루프'라는 증상만 고쳤습니다. 하지만 **데이터가 삭제되는 근본 원인 (스키마 결함)**은 고치지 않았습니다.
  • 의미: AI 가 스스로를 검사하면 이 문제를 못 찾았을 텐데, 외부의 '아르비터'가 찾아낸 것입니다.

💰 5. 비용: "우유 한 잔 값도 안 드는 검사"

이 모든 분석을 하는 데 든 비용은 놀랍게도 **약 27 센트 (한화 약 350 원)**였습니다.

  • 이는 미국 최저임금으로 3 분도 채 걸리지 않는 시간입니다.
  • 기존에는 보안 전문가가 수백만 원을 들여 수동으로 검사해야 했지만, 이제는 누구나 API 를 통해 이 수준의 검사를 할 수 있게 되었습니다.

📝 6. 결론: "AI 는 스스로를 감시할 수 없다"

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 가 모순을 해결하는 '직관'은, 그 모순을 발견하는 '감시'가 될 수 없다."

우리는 AI 를 더 똑똑하게 만드는 데만 집중하지 말고, AI 의 '지시문 (시스템 프롬프트)'을 소프트웨어처럼 체계적으로 검사하고 관리해야 합니다.

  • 서로 다른 AI 모델들을 모아놓아야 숨겨진 문제를 찾을 수 있습니다.
  • 지시문의 구조 (모놀리식, 모듈형 등) 에 따라 어떤 실수가 날지 예측할 수 있습니다.
  • 그리고 이 검사는 매우 저렴하게 가능합니다.

한 줄 요약:

"AI 코딩 도구의 지시문은 마치 헌법 같은데, 지금껏 그 헌법을 제대로 검사한 적이 없었습니다. 이제 '아르비터'라는 도구를 써서, 여러 AI 탐정들을 보내면 27 센트짜리 비용으로 숨겨진 모순과 버그를 찾아낼 수 있습니다."