당신이 거대한 법률 사건을 돕기 위해 매우 똑똑하고 속도가 빠른 법대생을 고용했다고 상상해 보십시오. 이 학생은 도서관의 모든 법률 서적을 읽었으며, 몇 초 만에 완벽한 문장을 써 내려갈 수 있습니다. 하지만 당신이 그 학생에게 사건 전체를 처음부터 끝까지 처리해 달라고 요청하면, 그는 종종 작지만 결정적인 세부 사항들을 놓치곤 합니다. 마감일을 잊어버리거나, 금액을 잘못 계산하거나, 법률이 적힌 구체적인 페이지를 인용하지 못하는 식입니다.

**"파르테논 로(Parthenon Law)"**라는 이 논문은 문제가 "학생"(AI 모델)이 충분히 똑똑하지 않기 때문이 아니라고 주장합니다. 문제는 그 주변의 **업무 시스템(work system)**이 망가져 있다는 것입니다.

다음은 이들의 해결책을 쉬운 비유를 사용하여 정리한 내용입니다.

1. 문제점: "똑똑하지만 산만한 인턴"

저자들은 현존하는 가장 똑똑한 AI 모델들을 대상으로 12,510개의 실제 법률 작업(계약서 검토 또는 법원 마감일 분석 등)을 테스트했습니다.

결과: 가장 똑똑한 AI 모델들도 개별 질문에 대해서는 80~90%의 정답률을 보였습니다. 하지만 법률의 세계에서 90%를 맞히는 것만으로는 충분하지 않습니다. 단 하나의 마감일이나 단 하나의 인용구를 놓치더라도, 그 문서는 쓸모없게 되기 때문입니다.
비유: 채소를 완벽하게 다지고 스테이크를 완벽하게 시즈닝할 줄 아는 요리사를 상상해 보십시오. 하지만 그 요리사가 오븐을 켜는 것을 잊었다면, 요리는 망쳐진 것입니다. 문제는 요리사의 기술이 아니라 "오븐"(프로세스)이 없었다는 점입니다.

2. 해결책: "파르테논(Parthenon)" 프레임워크

저자들은 파르테논이라 불리는 새로운 시스템을 구축했습니다. 단순히 AI에게 "일을 하라"고 시키는 대신, AI 주변에 엄격한 6단계의 "워크숍(workshop)"을 구축한 것입니다. 이는 마치 로봇 주변에 첨단 공장 바닥을 만드는 것과 같습니다.

이 프레임워크는 세 가지 주요 부분으로 구성됩니다:

"체크리스트" (기술 및 도구):
AI가 단 한 단어를 쓰기 전, AI는 반드시 특정 도구들을 사용하도록 강제됩니다. AI는 날짜를 그냥 "추측"할 수 없습니다. 반드시 "날짜 계산기" 도구를 실행해야 합니다. AI는 단순히 "법을 찾을" 수 없습니다. 반드시 자신의 작업 과정을 보여주도록 강제하는 "검색 도구"를 사용해야 합니다.
- 비유: 이는 인턴에게 "1. 달력을 확인한다. 2. 돈을 계산한다. 3. 출처를 찾는다. 4. 숫자를 검증한다"라고 적힌 체크리스트를 주는 것과 같습니다. 단계별로 건너뛸 수 없습니다.
"세 머리 달린 괴물" (해결사, 평가자, 학습자):
시스템은 작업을 서로 부정행위를 유도하지 않는 세 가지 별도의 역할로 나눕니다:
1. 해결사 (Solver): 실제 초안을 작성합니다.
2. 평가자 (Evaluator): 작성이 끝난 후, 규칙에 따라 초안을 채점하는 별도의 "판사" 역할을 합니다.
3. 학습자 (Learner): "판사"의 노트를 보고 다음번을 위해 체크리스트나 도구를 수정하는 정비공 역할을 합니다.
- 비유: 해결사는 에세이를 씁니다. 평가자는 이를 채점합니다. 학습자는 에세이를 수정하는 것이 아니라, 다음 학생이 같은 실수를 반복하지 않도록 *지침(instructions)*을 다시 작성합니다.
"부정행위 방지" 규칙 (Anti-Leakage):
이것은 매우 중요합니다. 시스템은 실수로부터 배우지만, 특정 테스트 질문의 정답을 암기하는 것은 엄격히 금지됩니다.
- 비의: 만약 인턴이 수학 시험에서 낙제했다면, 시스템은 그에게 "5번 문제의 답은 42이다"라고 가르치는 것이 아니라, "나눗셈을 더 잘하는 방법"을 가르칩니다. 이를 통해 시스템은 단순히 테스트를 암기하는 것이 아니라 일반적인 능력을 키우게 됩니다.

3. 결과: "더 똑똑한 두뇌가 아닌, 더 나은 프로세스"

저자들은 파르테논 워크숍이 있는 경우와 없는 경우의 AI 모델을 동일하게 실행했습니다.

파르테논이 없을 때: AI는 브레이크가 없는 빠른 자동차와 같았습니다. 빠르게 달렸지만 자주 충돌했습니다.
파르테논이 있을 때: AI는 신뢰할 수 있는 배달 트럭이 되었습니다. 경로를 따르고, 화물을 확인하며, 안전하게 도착했습니다.

마법의 숫자: 이 프레임ка워크를 추가했을 때, 훨씬 더 비싸고 "똑똑한" AI 모델로 업그레이드했을 때와 거의 비슷한 수준으로 AI의 성능이 향-상되었습니다. 실제로, 파르테논 시스템을 갖춘 저렴한 AI 모델이 시스템이 없는 최상위 모델보다 더 나은 성능을 보였습니다.

4. 결론: "코파일럿(Co-Pilot)"

논문은 이 시스템이 인간 변호사를 대체하는 것이 아님을 결론짓습니다.

현실: 파르테논 시스템을 사용하더라도, AI는 여전히 아주 미세한 세부 사항에서 약 10% 정도의 오류를 범합니다.
역할: AI는 이제 "슈퍼 초안 작성자"입니다. AI는 90%의 힘든 일을 수행하고, 스스로의 작업을 검토하며, 남은 10%를 인간 변호사가 검토할 수 있도록 표시해 둡니다.
이점: 인간 변호사가 처음부터 문서를 작성하기 위해 12시간을 쓰는 대신, 이미 90% 완벽하고 실제 증거에 기반한 초안을 검토하는 데 10분만 쓰면 됩니다.

요약하자면: 파르테논은 AI를 마법처럼 "똑똑하게" 만드는 것이 아니라, AI가 추측을 멈추고 엄격하며 감사 가능한(auditable) 일련의 규칙을 따르도록 강제하는 것입니다. 이는 혼란스러운 브레인스토밍 세션을 규율 있는 법률 워크플로우로 변화시킵니다.

기술 요약: 파르테논 로(Parthenon Law): 자기 진화형 법률 에이전트 프레임워크

1. 문제 정의

대규모 언어 모델(LLM) 에이전트를 법률 실무에 배치하는 것은 문서 집약적인 업무를 검토 가능한 결과물로 변환할 수 있는 잠재력에도 불구하고, 다음과 같은 세 가지 결정적인 장애물에 직면해 있습니다:

경험적 근거의 부재: 현재의 최첨단 모델 및 하네스(harness) 조합이 엔드 투 엔드(end-to-end) 법률 사건에 어떻게 수행되는지에 대한 대규모 데이터가 존재하지 않습니다.
구조적 불일치: 기존의 에이전트 아키텍처는 일반 목적의 하네스로서, 법률 수직 계열의 특수한 불변량(예: 엄격한 마감 기한, 출처 추적 가능성, 산출물 준수 사항)에 적응되지 않았습니다.
정적 시스템: 사실관계, 권위 있는 근거, 마감 기한이 변화하는 도메인에서, 모델 가중치를 미세 조정하거나 데이터 유출 위험을 감수하지 않고도 스스로의 결과로부터 학습할 수 있는 메커니즘이 없습니다.

현재의 평가에 따르면, 더 강력한 모델이 기준별 정확도를 높이기는 하지만, "엄격한 사건 완결성"(단일 사건에 대해 모든 기준을 통과하는 것)을 달로는 데는 실패합니다. 주요 실패 모드는 불완전한 출처 범위, 정량적 세부 사항 누락, 잘못된 형식의 산출물, 그리고 약한 근거 제시입니다. 병목 현상은 모델의 능력 자체보다는 모델을 둘러싼 구조화된 법률 작업 시스템의 부재로 식별되었습니다.

2. 방법론: PARTHENON 프레임워크

저자들은 기존의 워크스페이스 런타임을 법률 특화 제어 기능으로 감싸도록 설계된 6계층의 자기 진화형 법률 에이전트 프레임워크인 PARTHENON을 소개합니다. 이 아키텍처는 귀속성(attribution)과 감사 가능성(auditability)을 중심으로 구성됩니다:

2.1 아키텍처 계층

모델 계층 (Model Layer): 교체 가능한 역량 제공자(예: GPT, Claude, Gemini)로서, 특정 모델에 종속되지 않고 전문 분야별로 사건을 라우팅할 수 있게 합니다.
하네스 계층 (Harness Layer): 워크스페이스, 도구 접근 권한, 트레이스 캡처를 제공하는 관찰 가능한 실행 계약(예: Codex, Claude Code, OpenCode)입니다. PARTHENON은 이를 법률적 전문성을 갖춘 형태로 감싸는 교체 가능한 요소로 취급합니다.
에이전트 계층 (Agent Layer): 정보 유출을 방지하기 위해 엄격한 역할 경계를 정의합니다:
- 솔버 (Solver): 과업, 소스, 기술, 도구를 사용하여 작업 결과물을 초안합니다.
- 평가자 (Evaluator): 기억(memorization)을 방지하기 위해 솔버의 컨텍스트 외부에서 루브릭(rubric)에 따라 완성된 결과물을 채점합니다.
- 러너 (Learner): 축약된 트레이스와 집계된 신호를 바탕으로 하네스에 대한 과업 불가지론적(task-agnostic) 편집을 제안합니다.
지식 계층 (Knowledge Layer): 지속적인 법률 메모리(법령, 마감 기한, 스키마, 달력, 유의어)를 프롬프트 텍스트가 아닌 데이터로서 저장합니다. 이는 일반 목적의 객체이며, 데이터 유출을 방지하기 위해 특정 사건의 사실관계나 벤치마크 정답은 명시적으로 제외합니다.
도구 계층 (Tools Layer): 반복되는 법률 요구사항을 결정론적이고 해석 가능한 연산(예: 날짜 산술, 인용 확인, 숫자 재조정)으로 변환합니다. 이는 모델의 암묵적 기억을 실행 가능한 코드로 대체합니다.
기술 계층 (Skills Layer): 사건 클래스에 의해 선택되는 루브릭에 중립적인 절차적 계획(예: 분류, 이슈 라이프사이클, 필수 도구 호출)을 포함합니다. 이 계층은 경험적 실패를 재사용 가능한 절차로 전환합니다.

2.2 자기 진화 루프

PARTHENON은 모델 가중치가 아닌 하네스를 업데이트하는 게이트형 최적화 루프를 구현합니다:

실행 (Execution): 솔버가 초안을 생성합니다.
평가 (Evaluation): 평가자가 숨겨진 루브릭에 따라 초안을 채점하고 피드백을 생성합니다.
학습 (Learning): 러너는 축약된 실패 궤적(사건 ID, 루브릭 문구, 클라이언트 데이터가 제거된 상태)을 전달받아 지식, 도구 또는 기술 계층에 대한 편집을 제안합니다.
게이팅 (Gating): 편집은 일반화가 가능하고, 정적 안전 검사를 통과하며, 실제 과업 통과율을 엄격히 개선하는 경우에만 승인됩니다. 이 "안티 리키지(anti-leakage)" 프로토콜은 시스템이 벤치마크 신호를 암기하는 것이 아니라 절차적 개선을 학습하도록 보장합니다.

3. 실험 설정

벤치마크: 24개 전문 분야에 걸친 1,251개의 사건을 포함하는 Harvey LAB 코퍼스. (소스 문서, 산출물 및 전문가 루브릭 포함)
베이스라인: 네 가지 실행 패밀리(직접 API 프롬프팅, 기본 법률 네이티브 하네스, Codex 및 Claude Code 워크스페이스 하네스)를 통해 평가되었습니다.
모델: 세 가지 모델 티어(GPT-5.4-mini, GPT-5.5, Claude Sonnet 4.6/Haiku 4.5)를 테스트했습니다.
지표:
- 기준 정확도 (Criterion Accuracy): 모든 루브릭 기준을 통과한 비율.
- 전체 통과 (All-Pass): 모든 기준을 통과한 단일 사건의 엄격한 비율.

4. 주요 결과

4.1 성능 향상

모델과 에이전트 하네스를 고정한 상태에서, PARTHENON을 추가하는 것은 베이스 모델을 업그레이드하는 것과 유사한 성능 향상을 가져옵니다:

정확도 이득: PARTHENON은 세 가지 모델 티어 전체에서 결합된 기준 정확도를 각각 +13.8, +10.2, +7.4 퍼센티지 포인트 증가시켜, 각각 **82.0%, 89.9%, 90.2%**에 도달하게 했습니다.
엄격한 완결성: 약한 솔버의 경우, 엄격한 전체 통과(all-pass) 완료 건수가 대략 3배 증가했습니다 (예: GPT-5.4-mini의 경우 14건에서 42건으로 증가).
오류 감소: 프레임워크는 기존 베이스라인 실패의 주 원인이었던 기계적 오류(사실 누락, 숫자/날짜 오류, 산출물 형식 오류)를 크게 줄였습니다.

4.2 개선 메커니즘

액션 믹스 (Action Mix): 개선은 텍스트 생성의 증가가 아니라 새로운 "도구/스크립트" 액션 버킷(예: 필수 감사, 스키마 채우기)에 의해 주도됩니다. 베이스라인 에이전트는 읽기 중심이었으나, PARTHENON 에이전트는 구조화된 검사 및 검증을 수행합니다.
비용 효율성: 가장 비싼 솔버(GPT-5.5)의 경우, PARTHENON은 정확도를 높이면서도 사건당 비용을 오히려 감소시켰습니다 ( $1.51 →$ 1.29). 이는 감사 루프가 더 짧고 정밀한 출력을 생성했기 때문입니다. 저렴한 솔버의 경우, 정확도 향상 대비 비용 증가는 미미했습니다.
절제 연구 (Ablation Studies):
- 최적화: 자기 개선 루프는 전이 가능한 하네스로 수렴하며, 서로 다른 솔버들이 유사한 정확도 수준으로 수렴합니다.
- 추론 노력 (Reasoning Effort): 원시 추론 예산(reasoning effort)을 늘리는 것은 신뢰할 수 없는 결과를 낳았으나, 절차적 제어는 신뢰할 수 있는 이득을 제공했습니다.
- 문서 요약: 캐싱된 문서 요약을 추가하는 것은 긴 입력값에 대한 성능을 개선하지 못했습니다. 병목 지점은 입력 길이가 아니라 절차적 규율이었습니다.

4.3 인간과의 비교

인간 변호사의 검토(정확도 100%)에 근접하는 "출시 표준"과 비교했을 때:

정확도: 가장 강력한 PARTHENON 구성(기준 정확도 90.2%)조차 모든 기준을 통과하는 사건은 약 12%에 불과하여, 이는 자율적인 변호사가 아닌 초안 작성 보조 도구임을 나타냅니다.
시간 및 비용: 시스템은 엄청난 효율성 이득을 제공합니다. 사건당 예상 시간은 인간(~~12.6시간)에서 AI(~~10분)로 단축되며, 비용은 ~ $4,399에서 ~$ 0.81로 급감합니다.

5. 의의 및 주장

본 논문은 신뢰할 수 있는 법률 AI의 주요 장벽이 파라미터(parametric)가 아닌 **절차(procedural)**에 있다고 주장합니다. 강력한 모델이라 할지라도 법률적 불변량(마감 기한, 인용, 근거 제시 등)을 강제할 수 있는 구조화된 시스템이 없으면 법률 업무 수행에 실패합니다.

핵심 기여:

경험적 분석: Harvey LAB을 통한 12,510개의 에이전트 궤적에 대한 대규모 연구를 통해, 최첨단 모델에서도 엄격한 사건 완결성이 여전히 낮음을 밝혀냈습니다.
PARTHENON 프레임워크: 모델 역량과 법률 메모리, 도구, 절차적 기술을 분리하여 실패를 감사하고 편집할 수 있게 하는 6계층 아키텍처를 제시합니다.
자기 진화 루프: 모델을 미세 조정하거나 벤치마크 데이터를 유출하지 않고도, 점수화된 실패를 과업 불가지론적 하네스 업데이트로 전환하는 메커니즘을 구현했습니다.

결론:
저자들은 PARTHENON이 법률 AI의 역할을 "무에서 유를 창조하는 초안 작성"에서 "출처에 근거하고 감사가 가능한 첫 번째 초안을 검토하는 것"으로 변화시킨다고 결론짓습니다. 솔버를 감사 가능한 법률 하네스로 감쌈으로써, 시스템은 모델 업그레이드와 대등한 성과를 달성하며 다양한 모델 패밀리 간에 전이될 수 있음을 보여줍니다. 이 연구의 의의는 높은 신뢰도가 요구되는 영역에서의 신뢰성이 단순히 모델 규모를 키우는 것이 아니라, 외부의 검사 가능한 절차적 제어를 통해 달성될 수 있음을 입증했다는 점에 있습니다.

Parthenon Law: A Self-Evolving Legal-Agent Framework