Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"법률 문서의 바다에서 필요한 증거를 찾아내고, 누가 검토해야 할지 결정하는 똑똑하지만 투명한 시스템"**에 대해 설명합니다.

최근 많은 기업이 AI(특히 거대 언어 모델, LLM) 를 이용해 수천 장의 계약서나 이메일을 검토하려 하지만, 이 방식은 **'블랙박스(안 보이는 상자)'**처럼 결과가 왜 나왔는지 설명하기 어렵고, 매번 결과가 조금씩 달라질 수 있어 법적/규제적 문제가 생길 수 있습니다.

저자는 이 문제를 해결하기 위해 **"간단하지만 확실하고, 결과가 항상 똑같은 (Deterministic) 시스템"**을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.

🏥 비유: 병원 응급실의 '분류 (Triage)' 시스템

이 시스템은 마치 병원 응급실의 분류 (Triage) 간호사와 같습니다.

환자 (계약서/문서) 가 몰려듭니다.
- 수천 장의 계약서와 이메일이 들어옵니다.
- 모든 환자를 의사가 직접 다 볼 수는 없습니다. 시간이 부족하죠.
기존의 AI(LLM) 는 '예측 불가한 의사' 같습니다.
- "이 환자는 중환자실로 보내세요"라고 말하지만, 왜 그렇게 판단했는지 설명이 모호하고, 내일 같은 환자를 보면 "아니요, 일반 병동으로 보내세요"라고 바뀔 수도 있습니다.
- 규제 기관 (감사관) 은 "왜 그렇게 판단했는지 증명해 달라"고 요구할 때, 이 AI 는 "저는 그렇게 느꼈어요"라고만 답할 수 있어 문제가 됩니다.
이 논문이 제안하는 시스템은 '규칙을 따르는 분류 간호사'입니다.
- 이 간호사는 매우 단순한 규칙과 투명한 점수만 사용합니다.
- 같은 환자가 오면 항상 똑같은 점수를 매기고, 항상 같은 부서로 보냅니다.
- "이 점수는 90 점 이상이라서 자동 승인 (Auto-Compliant), 10 점 이하면 자동 거절 (Auto-Noncompliant), 그 사이면 의사 (인간) 가 다시 봐야 함 (Human-Review)"이라고 명확하게 나눕니다.

🛠️ 이 시스템이 어떻게 작동하나요? (3 단계)

이 시스템은 크게 세 가지 단계로 작동합니다.

1 단계: 문서 검색 (검색 엔진 역할)

상황: "비밀유지 계약서 조항을 찾아줘"라고 요청합니다.
작동: 시스템은 수천 개의 문서 중에서 가장 관련성 높은 문서 5 개를 찾아냅니다.
비유: 도서관 사서가 "이 책이 질문과 가장 비슷해요"라고 딱 맞는 책을 5 권만 골라주는 것과 같습니다.
결과: 이 시스템은 기존 모델보다 훨씬 정확하게 관련 문서를 찾아냅니다 (NDCG 점수 향상).

2 단계: 점수 매기기 (신뢰도 계산)

상황: 찾은 문서가 정말로 규정을 지키고 있는지 확인합니다.
작동: 문서와 규정의 일치도를 0~100 점으로 매깁니다.
중요한 점: 이 점수는 매번 똑같습니다. (랜덤 요소가 없음). 그래서 나중에 감사할 때 "왜 이 문서를 통과시켰나요?"라고 물으면 "점수가 95 점이라서 통과 기준 (90 점) 을 넘겼습니다"라고 명확히 답할 수 있습니다.

3 단계: '퍼지 (Fuzzy)' 분류 (자동 vs 인간 검토)

상황: 점수가 나왔으니 이제 결정해야 합니다.
작동: 점수를 세 구역으로 나눕니다.
- 🟢 초록색 구역 (자동 승인): 점수가 아주 높음. "이건 확실히 문제없어요." → 자동 처리.
- 🔴 빨간색 구역 (자동 거절): 점수가 아주 낮음. "이건 확실히 위반이에요." → 자동 거절.
- 🟡 노란색 구역 (인간 검토): 점수가 애매함. "음... 비슷하지만 확실하지 않네요." → 사람 (법률 전문가) 이 다시 봐야 함.
핵심: 이 '노란색 구역'의 기준선을 조절할 수 있습니다. "실수를 2% 이하로만 허용하자"라고 설정하면, 시스템은 확실한 건 자동 처리하고, 애매한 건 모두 사람에게 넘겨줍니다.

💡 왜 이 방식이 중요한가요?

투명성 (Transparency):
- 거대 AI 는 "신비로운 힘"으로 판단하지만, 이 시스템은 **"점수 A 와 기준 B 때문에 C 를 선택했다"**라고 설명할 수 있습니다. 이는 금융, 의료, 에너지 같은 규제 산업에서 필수적입니다.
재현성 (Reproducibility):
- 오늘 이 시스템을 돌려도, 1 년 뒤에 같은 데이터를 넣어도 결과가 100% 똑같습니다. (랜덤 요소가 없음). 이는 법적 분쟁이나 감사에서 매우 중요합니다.
실용성 (Practicality):
- 거대한 AI 모델을 다룰 필요 없이, 비교적 작은 모델로 **핵심적인 부분 (문서 찾기, 위험도 판단)**만 정확하게 처리합니다.
- "모든 걸 AI 가 다 하라"가 아니라, **"AI 는 확실한 건 처리하고, 애매한 건 사람이 하라"**는 현실적인 접근입니다.

📝 한 줄 요약

"이 논문은 '블랙박스' 같은 거대 AI 대신, '점수표'를 보고 항상 똑같은 결정을 내리는 투명한 분류 시스템을 만들어, 법적 문서 검토를 자동화하면서도 감사 (Audit) 에 완벽하게 대응할 수 있게 해줍니다."

이 방식은 마치 자동문처럼 확실한 건 열고, 보안요원이 애매한 건 확인하게 하여, 효율성과 안전성을 동시에 잡는 지혜로운 방법입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval (법적 준수 분류 및 증거 검색을 위한 결정론적 퍼지 트라이지)"**라는 제목으로, 대규모 언어 모델 (LLM) 의 불투명성과 비결정론적 특성을 보완하기 위해, 결정론적 (deterministic) 이진 인코더와 투명한 퍼지 트라이지 (fuzzy triage) 메커니즘을 결합한 새로운 접근법을 제안합니다.

주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem)

배경: 법률, 금융, 의료 등 규제 산업 (GRC) 에서 계약서, 정책, 이메일 등 방대한 증거 자료를 기반으로 준수 여부를 판단해야 하는 업무가 증가하고 있습니다.
기존 접근법의 한계:
- LLM 코파일럿의 문제: 최근 LLM 기반 챗봇은 유용하지만, 할루시네이션 (환각), 일관성 부족, 불확실성 추정 부재, 그리고 비결정론적 (non-deterministic) 특성 (샘플링에 따른 결과 변동) 으로 인해 규제 감사나 법적 방어성 (legal defensibility) 확보가 어렵습니다.
- 기존 분류 모델의 한계: 대부분의 기존 모델은 이진 분류 (Yes/No) 에만 초점을 맞추거나, 점수화된 관련성 (graded relevance) 을 고려하지 않으며, "검토가 필요한 경우"를 명시적으로 구분하는 트라이지 (triage) 메커니즘이 부족합니다.
목표: 규제 프레임워크 (HIPAA, NERC-CIP 등) 와 부합하며, 감사 가능한 재현 가능한 (reproducible) 증거 기반 준수 시스템을 구축하는 것.

2. 방법론 (Methodology)

저자는 세 가지 핵심 구성 요소를 결합한 파이프라인을 제안합니다.

A. 결정론적 듀얼 인코더 (Deterministic Dual Encoder)

아키텍처: RoBERTa-base 를 기반으로 한 듀얼 인코더를 사용합니다. 쿼리 (규칙/제어 요구사항) 와 문서 (계약 조항) 를 각각 인코딩하여 512 차원의 벡터로 매핑한 후, **코사인 유사도 (Cosine Similarity)**를 점수로 사용합니다.
장점: 쿼리와 문서를 독립적으로 인코딩할 수 있어 오프라인 인덱싱과 효율적인 검색이 가능하며, 고정된 시드 (seed) 로 학습하여 동일한 입력에 대해 항상 동일한 출력을 보장합니다.

B. 단계별 학습 전략 (Two-Stage Training)

ACORD 데이터셋 (등급별 관련성 학습): 보험 계약 조항과 규칙 간의 관련성을 0~~4 또는 1~~5 점으로 평가한 ACORD 벤치마크를 사용하여 리스트와이즈 (listwise) 순위 학습을 수행합니다. 이를 통해 조항의 관련성 정도를 세밀하게 파악하는 능력을 기릅니다.
CUAD 스타일 데이터셋 (이진 분류 및 불균형 처리): 계약 위험을 식별하는 CUAD 데이터셋을 기반으로 이진 분류 (준수/불준수) 태스크를 수행합니다.
- 극단적인 클래스 불균형 해결: 양의 클래스 (준수 증거가 있는 경우) 비율이 약 0.6% 로 매우 낮으므로, **양의 클래스 가중치 (positive-class weight)**를 조정하여 (예: 200 배) 재현율 (Recall) 을 극대화하도록 학습합니다.

C. 퍼지 트라이지 헤드 (Fuzzy Triage Head)

3 단계 결정 구조: 단일 임계값이 아닌, 학습된 임계값 ( $\tau_{low}, \tau_{high}$ $τ_{l o w}, τ_{hi g h}$ ) 을 사용하여 예측을 3 가지 영역으로 나눕니다.
1. Auto-noncompliant (자동 불준수): 점수가 낮을 때.
2. Human-review (인간 검토 필요): 중간 점수 영역 (불확실성이 높은 경우).
3. Auto-compliant (자동 준수): 점수가 높을 때.
최적화: 검증 데이터에서 자동 결정 커버리지 (auto-decision coverage) 를 최대화하면서, 자동 결정된 샘플 내의 오류율을 2% 이하로 제한하는 조건 하에 임계값을 튜닝합니다.

3. 주요 기여 (Key Contributions)

재현 가능한 법률 NLP 베이스라인: ACORD 데이터셋의 등급별 관련성 감독을 통해 학습된 단순하고 재현 가능한 듀얼 인코더 기반 모델을 제시했습니다.
명시적인 오류 - 커버리지 트레이드오프: CUAD 스타일의 이진 분류 작업에서 가중치 조정과 퍼지 트라이지 헤드를 결합하여, 자동화 범위와 인간 검토 필요성을 명확히 구분하는 메커니즘을 제안했습니다.
규제 준수와 설명 가능성: 블랙박스 LLM 대신, 소수의 스칼라 파라미터와 명확한 임계값으로 동작을 설명할 수 있어 HIPAA 및 NERC-CIP 같은 규제 프레임워크와의 정합성을 높였습니다.

4. 실험 결과 (Results)

ACORD 순위 평가 (Retrieval):
- NDCG@5: 약 0.38 ~ 0.42
- NDCG@10: 약 0.45 ~ 0.50
- 4-star Precision@5: 약 0.37
- 의미: 단순한 무작위나 다수결 베이스라인을 크게 상회하며, 계약 조항의 관련성을 효과적으로 순위 매깁니다.
CUAD 이진 분류 (Classification):
- AUC: 0.98 ~ 0.99
- F1 점수: 가중치 설정에 따라 0.22 ~ 0.30 (양의 클래스 가중치를 높이면 재현율이 0.98 까지 급증).
- 의미: 극단적으로 불균형한 데이터 (양성률 0.6%) 에서도 높은 재현율을 유지하며 위험 조항을 효과적으로 탐지합니다.
트라이지 성능:
- 검증 데이터의 약 96~98% 를 자동 결정 (Auto) 으로 처리하면서도, 자동 결정 영역 내 오류율을 2% 이하로 엄격하게 통제했습니다.
- 나머지 모호한 사례들은 인간 검토로 라우팅되어 전체 시스템의 신뢰성을 높입니다.

5. 의의 및 결론 (Significance & Conclusion)

법적 방어성 (Legal Defensibility): LLM 의 비결정론적 특성 (샘플링 변동, API 변경 등) 으로 인해 규제 기관이나 상대방 전문가가 결과를 재현하거나 검증하기 어려운 반면, 이 모델은 고정된 시드와 파라미터로 동일한 입력에 대해 항상 동일한 결과를 보장합니다.
실무적 타당성: "완전한 자동화"나 "완전한 수동 검토"가 아닌, 불확실성이 높은 경우만 인간이 개입하는 (Human-in-the-Loop) 현실적인 워크플로우를 지원합니다.
규제 정합성: 자동 준수/불준수/검토 영역을 명확히 구분함으로써, 잔여 위험 (residual risk) 관리 및 감사 추적 (audit trail) 에 직접적으로 활용될 수 있는 구조를 제공합니다.

결론적으로, 이 논문은 거대하고 복잡한 LLM 이 아니라, 작고 결정론적이며 투명한 모델이 규제 준수 및 증거 검색과 같은 고위험 (high-stakes) 업무에서 더 실용적이고 감사 가능한 솔루션이 될 수 있음을 입증했습니다.