Each language version is independently generated for its own context, not a direct translation.
🏗️ 1. 문제: "지시문"이라는 헌법의 부실함
우리가 소프트웨어를 만들 때는 '컴파일러'나 '테스트 프로그램'을 돌려서 오류를 찾습니다. 하지만 AI 코딩 에이전트 (Claude Code, Codex, Gemini 등) 는 시스템 프롬프트라는 거대한 '지시문' 하나로 움직입니다.
이 지시문은 마치 **회사의 '헌법'**과 같습니다.
- "항상 TodoWrite 도구를 써라"라고 한 구절이 있으면서,
- 다른 구절에서는 "절대 TodoWrite 를 쓰지 마라"라고 적혀 있을 수 있습니다.
기존의 문제점:
AI 는 이런 모순을 발견하지 못합니다. 대신 "아, 아마도 이쪽이 더 중요할 거야"라고 **직관 (판단)**으로 넘겨버립니다. 그래서 오류가 발생해도 경고가 뜨지 않고, AI 는 조용히 실수를 저지릅니다. 마치 스스로를 감시할 수 없는 경비원과 같습니다.
🔍 2. 해결책: '아르비터 (Arbiter)'라는 새로운 검사관
저자들은 **'아르비터 (Arbiter)'**라는 새로운 시스템을 만들었습니다. 이 시스템은 두 가지 방식으로 AI 의 지시문을 검사합니다.
① 방향성 있는 검사 (Directed Evaluation): "규칙대로 찾아보기"
- 비유: 수학 시험지 채점 같습니다.
- "A 와 B 가 충돌하면 안 된다"라는 규칙을 정해두고, 지시문 전체를 훑어보며 규칙에 맞지 않는 부분을 찾아냅니다.
- 결과: 명확한 모순 (예: "항상 써라" vs "절대 쓰지 마라") 을 빠짐없이 찾아냅니다.
② 방향 없는 수색 (Undirected Scouring): "호기심 많은 탐정들"
- 비유: 여러 명의 탐정을 보내는 것 같습니다.
- "이 문서를 자세히 읽어보고, 이상한 점을 발견하면 뭐든 말해줘"라고 vague(모호한) 지시를 내립니다.
- 핵심: 서로 다른 AI 모델 (Claude, Gemini, Llama 등) 을 여러 명 부릅니다.
- 왜? 한 AI 는 "문법 오류"만 보고, 다른 AI 는 "경제적 낭비"를 보고, 또 다른 AI 는 "보안 구멍"을 발견하기 때문입니다.
- 서로 다른 관점을 가진 탐정들이 모여야 숨겨진 문제를 다 찾을 수 있습니다.
🏢 3. 발견된 사실: "건축 방식"이 실수의 종류를 결정한다
연구진은 세 가지 주요 AI 의 지시문을 분석했고, **지시문을 작성한 방식 (아키텍처)**에 따라 실수의 종류가 다르다는 것을 발견했습니다.
| 건축 스타일 | 비유 | 발생하는 실수 |
|---|---|---|
| 모놀리식 (Monolithic) (Claude Code) |
거대한 빌딩 한 번에 다 지어서 층층이 쌓음. |
이음새에서의 충돌 각 층 (부서) 이 따로 지어졌기 때문에, 층과 층이 만나는 곳에서 "A 는 쓰지 마라"와 "B 는 써라"가 충돌합니다. |
| 플랫 (Flat) (Codex CLI) |
작은 원룸 간단하고 복잡하지 않음. |
단순함의 대가 복잡한 기능이 없어서 충돌은 적지만, "누가 이 일을 하는지"가 모호하거나 기능이 부족합니다. |
| 모듈형 (Modular) (Gemini CLI) |
레고 조립 각각의 블록을 따로 만들어 합침. |
조립 틈새의 결함 각 블록은 완벽하지만, 블록을 이어붙일 때 약속 (계약) 이 없어서 데이터가 사라지거나 충돌합니다. |
💡 4. 놀라운 사례: 구글의 '숨겨진 버그'
가장 흥미로운 점은 구글의 Gemini CLI에서 발견된 문제입니다.
- 발견: "사용자가 저장한 메모 (선호도) 가 역사 압축 과정에서 자동으로 삭제되는 구조적 결함이 있다"는 것을 아르비터가 찾아냈습니다.
- 현실: 구글은 이 문제를 발견하고 '무한 루프'라는 증상만 고쳤습니다. 하지만 **데이터가 삭제되는 근본 원인 (스키마 결함)**은 고치지 않았습니다.
- 의미: AI 가 스스로를 검사하면 이 문제를 못 찾았을 텐데, 외부의 '아르비터'가 찾아낸 것입니다.
💰 5. 비용: "우유 한 잔 값도 안 드는 검사"
이 모든 분석을 하는 데 든 비용은 놀랍게도 **약 27 센트 (한화 약 350 원)**였습니다.
- 이는 미국 최저임금으로 3 분도 채 걸리지 않는 시간입니다.
- 기존에는 보안 전문가가 수백만 원을 들여 수동으로 검사해야 했지만, 이제는 누구나 API 를 통해 이 수준의 검사를 할 수 있게 되었습니다.
📝 6. 결론: "AI 는 스스로를 감시할 수 없다"
이 논문의 핵심 메시지는 다음과 같습니다.
"AI 가 모순을 해결하는 '직관'은, 그 모순을 발견하는 '감시'가 될 수 없다."
우리는 AI 를 더 똑똑하게 만드는 데만 집중하지 말고, AI 의 '지시문 (시스템 프롬프트)'을 소프트웨어처럼 체계적으로 검사하고 관리해야 합니다.
- 서로 다른 AI 모델들을 모아놓아야 숨겨진 문제를 찾을 수 있습니다.
- 지시문의 구조 (모놀리식, 모듈형 등) 에 따라 어떤 실수가 날지 예측할 수 있습니다.
- 그리고 이 검사는 매우 저렴하게 가능합니다.
한 줄 요약:
"AI 코딩 도구의 지시문은 마치 헌법 같은데, 지금껏 그 헌법을 제대로 검사한 적이 없었습니다. 이제 '아르비터'라는 도구를 써서, 여러 AI 탐정들을 보내면 27 센트짜리 비용으로 숨겨진 모순과 버그를 찾아낼 수 있습니다."