A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Each language version is independently generated for its own context, not a direct translation.

📚 배경: 왜 이 프로젝트가 필요할까요?

상사들끼리 비밀을 지키기로 약속하는 '비밀유지계약서 (NDA)'는 회사마다, 사람마다 글씨체도 다르고, 문장 구조도 제각각입니다. 어떤 건 1 페이지이고, 어떤 건 100 페이지입니다.

기존에는 법률 전문가들이 이 방대한 문서들을 눈으로 하나하나 읽어가며 "여기엔 비밀 조항이 있네", "저기엔 책임 조항이 있네"라고 일일이 찾아서 분류해야 했습니다. 이는 시간도 오래 걸리고, 실수할 확률도 높으며, 눈이 피로해지는 매우 힘든 일이었습니다.

🛠️ 해결책: 두 명의 AI 전문가 팀

저자들은 이 문제를 해결하기 위해 두 단계로 나뉜 AI 팀을 꾸렸습니다. 마치 거대한 책장을 정리하는 두 명의 전문가가 협력하는 것과 같습니다.

1 단계: '책장 정리사' (Segmenter) - LLM 기반

역할: 뭉개져 있는 거대한 계약서 원고를 받아서, 조항 (Clause) 단위로 잘게 찢어서 정리하는 일입니다.
사용한 도구: LLaMA-3.1-8B-Instruct라는 거대 언어 모델 (LLM) 을 사용했습니다.
비유: 이 모델은 마법 같은 가위를 들고 있습니다. 계약서 전체를 읽으면서 "여기부터가 새로운 조항이야, 여기까지가 끝이야"라고 정확하게 잘라냅니다.
특이사항: 계약서에는 표나 헤더 같은 복잡한 형식도 많아서 AI 가 헷갈릴 수 있지만, 이 AI 는 95% 이상의 정확도로 원문의 내용을 잃지 않고 잘라냈습니다. (ROUGE 점수 0.95)

2 단계: '분류 전문가' (Classifier) - Transformer 기반

역할: 1 단계에서 잘라낸 작은 조항들을 보고, **"이건 '비밀 정보 정의' 조항이야", "이건 '위반 시 벌금' 조항이야"**라고 라벨을 붙이는 일입니다.
사용한 도구: Legal-Roberta-Large라는 법률에 특화된 AI 모델을 사용했습니다.
비유: 이 모델은 법률 도서관의 사서와 같습니다. 잘라낸 문장들을 보고 14 가지 카테고리 (예: 비밀 정보, 책임, 계약 기간 등) 중 어디에 속하는지 딱딱 분류합니다.
성공: 전체적으로 85% 의 높은 정확도로 분류에 성공했습니다. 다만, 아주 드물게 나오는 조항 (소수 클래스) 은 분류하는 데 조금 어려움을 겪었습니다.

🧩 핵심 기술: 어떻게 이렇게 정확하게 했을까요?

vLLM 이라는 '고속도로': AI 가 문서를 처리할 때 메모리를 효율적으로 관리해서, 일반 컴퓨터보다 훨씬 빠르고 가볍게 작동하게 했습니다.
Needleman-Wunsch 알고리즘 (맞춤법 검사기): AI 가 잘라낸 문장과 사람이 정답으로 적은 문장이 정확히 일치하는지 비교할 때, 단순히 줄을 세우는 게 아니라 문장 간의 유사도를 계산하는 정교한 알고리즘을 써서 오차를 줄였습니다.
불균형 문제 해결: 계약서에는 '비밀 정보' 조항은 많지만 '특정 조항'은 아주 적은 경우가 많습니다. 이를 해결하기 위해 Focal Loss라는 기술을 써서, AI 가 드문 조항도 놓치지 않도록 훈련시켰습니다.

📊 결과: 얼마나 잘했나요?

잘라내기 (Segmentation): 원문의 내용을 95% 이상 완벽하게 보존하면서 잘라냈습니다. (거의 실수 없음)
분류하기 (Classification): 자주 나오는 조항들은 거의 완벽하게 분류했고, 전체적인 정확도도 매우 높았습니다.

🔮 미래: 앞으로는 어떻게 될까요?

현재는 정리하고 분류하는 것까지 했지만, 앞으로는 다음과 같은 일을 할 계획입니다.

데이터 부족 해결: 비밀유지계약서는 회사 비밀이라 구하기 어렵습니다. AI 가 더 많은 데이터를 학습할 수 있도록 가상의 데이터를 만들어 훈련시키는 기술을 도입할 예정입니다.
완전 자동화 시스템: 단순히 분류하는 것을 넘어, **"이 조항은 위험해", "이 부분은 수정해야 해"**라고 법률 전문가가 대신 조언해주는 시스템으로 발전시킬 것입니다.

💡 한 줄 요약

**"다양하고 복잡한 비밀유지계약서를 AI 가 '마법 가위'로 잘게 잘라내고, '전문 사서'가 분류하게 함으로써, 법률 전문가들의 귀중한 시간을 아껴주고 실수를 줄여주는 혁신적인 시스템"**을 제안한 연구입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: NDA 분석을 위한 2 단계 아키텍처 (LLM 기반 분할 및 Transformer 기반 조항 분류)

1. 문제 정의 (Problem)

비즈니스 간 (B2B) 관계에서 비밀유지계약 (NDA) 은 필수적이지만, 문서의 형식, 구조, 작성 스타일이 매우 다양하여 수동 분석이 느리고 오류가 발생하기 쉽습니다.

주요 도전 과제:
- 비표준화: 각 외부 당사자가 제출하는 NDA 는 조항 구조와 작성 스타일이 제각각이라 규칙 기반 시스템 적용이 어렵습니다.
- 복잡성: 법적 언어의 모호성과 전문 용어로 인해 자연어 처리 (NLP) 시스템의 적용이 제한적입니다.
- 리스크: 계약 검토의 양과 속도가 증가함에 따라 인간의 실수와 법적 불일치를 놓칠 위험이 커지고 있습니다.

2. 제안된 방법론 (Methodology)

저자들은 NDA 분석의 핵심 작업인 **조항 분할 (Segmentation)**과 **조항 분류 (Classification)**를 자동화하기 위한 2 단계 아키텍처를 제안했습니다. 전체 시스템은 LangGraph를 사용하여 워크플로우를 제어합니다.

1 단계: 분할기 (Segmenter Component)
- 목표: 전체 NDA 문서를 개별 조항 (Clause) 단위로 분할.
- 모델: LLaMA-3.1-8B-Instruct (LLM).
- 인프라: vLLM 라이브러리를 사용하여 메모리 관리 (PagedAttention) 및 병렬 실행을 최적화하고, GPU 효율성을 극대화했습니다.
- 전략: 긴 컨텍스트를 처리할 수 있는 LLM 의 능력을 활용하여 다양한 서식과 구조를 가진 문서를 분할합니다. 프롬프트 엔지니어링을 통해 구조적 변이와 조항 경계를 정확히 구분하도록 지시했습니다.
- 평가 정렬: 생성된 조항과 참조 조항의 수를 맞추기 위해 Needleman-Wunsch 알고리즘을 사용하여 정렬 (Alignment) 을 수행했습니다. 이는 $O(N \times M)$ 의 계산 복잡도를 줄이고 효율적인 평가를 가능하게 했습니다.
2 단계: 분류기 (Classifier Component)
- 목표: 분할된 각 조항을 14 가지 법적 카테고리 (예: 당사자 식별, 목적, 비밀 정보 정의, 책임 등) 중 하나 이상에 할당.
- 모델: Legal-RoBERTa-Base (BERT 기반 모델).
- 학습 전략:
  - 다중 레이블 분류: 하나의 조항이 여러 클래스에 속할 수 있음.
  - 불균형 해결: 데이터 불균형 (Class 14 가 48.9% 차지) 을 해결하기 위해 Focal Loss ( $\alpha=0.25, \gamma=2$ ) 를 적용했습니다.
  - 데이터: Kleister-NDA 데이터셋의 322 개 문서 (총 3,714 개 조항) 를 3 명의 법률 전문가가 주석 달았습니다.

3. 주요 기여 (Key Contributions)

하이브리드 2 단계 아키텍처: 긴 문서 처리에 적합한 LLM (분할) 과 도메인 특화 BERT (분류) 를 결합하여 NDA 분석 파이프라인을 구축했습니다.
효율적인 평가 프레임워크: 생성된 조항과 참조 조항 간의 정렬을 위해 Needleman-Wunsch 알고리즘을 도입하여 비교 횟수를 92.5% 감소시켰고, 이를 통해 Factual Correctness 및 Semantic Similarity 와 같은 고비용 평가 지표의 적용을 가능하게 했습니다.
실제 데이터 기반 검증: 다양한 형식과 스타일을 가진 실제 NDA 문서 (Kleister-NDA) 를 사용하여 모델의 일반화 능력을 검증했습니다.
확장성: 현재는 분할과 분류에 집중했으나, 향후 조항 수정 및 검토 기능을 통합할 수 있도록 설계되었습니다.

4. 실험 결과 (Results)

분할 성능 (Segmentation):
- ROUGE F1: 0.95 ± 0.0036 (높은 정밀도 0.99, 재현율 0.94).
- 사실 정확도 (Factual Correctness): 0.95. 원본 조항의 핵심 정보가 누락되거나 왜곡되지 않음을 확인.
- 의미적 유사도 (Semantic Similarity): 0.98. 생성된 텍스트가 참조 조항과 의미적으로 매우 밀접하게 일치함.
- 결론: LLM 기반 분할은 문서 구조와 관계없이 조항 경계를 매우 정확하게 식별하고 내용을 보존함.
분류 성능 (Classification):
- 가중 F1 (Weighted F1): 0.85 (테스트 세트). 다수 클래스에 대한 성능이 우수함.
- Macro F1: 0.69. 소수 클래스 (샘플 100 개 미만) 에 대한 일반화 능력 부족으로 인해 낮게 나타남.
- Hamming Loss: 0.03. 레이블 단위에서 오류율이 낮음.
- MCC (Matthews Correlation Coefficient): 0.84. 불균형 데이터에서도 예측과 실제 레이블 간의 강한 상관관계를 보임.
- 결론: 모델은 다수 클래스에서는 높은 정확도를 보이지만, 데이터 불균형으로 인해 소수 클래스 인식에는 한계가 있음.

5. 의의 및 결론 (Significance & Conclusion)

실용적 가치: 이 연구는 법적 팀의 수동 검토 부담을 줄이고, 계약 검증의 일관성을 높이며, 법적 신뢰성을 강화하는 자동화 솔루션을 제공합니다.
기술적 통찰: LLM 의 긴 컨텍스트 처리 능력과 도메인 특화 BERT 의 분류 능력을 결합한 접근 방식이 복잡한 법적 문서 분석에 효과적임을 입증했습니다.
한계 및 향후 과제:
- 데이터 부족: NDA 의 기밀성으로 인해 데이터 수집이 어렵고, 특히 소수 클래스의 데이터 부족이 모델 성능을 제한했습니다.
- 향후 작업: 데이터 증강 (Data Augmentation), 생성 모델을 활용한 문장 재작성, 그리고 Focal Loss 외의 추가 전략을 통해 클래스 불균형을 해결하고, 최종적으로 조항 오류 수정 및 불일치 탐지가 가능한 완전 자동화 시스템을 구축할 계획입니다.

이 논문은 법적 문서 처리 분야에서 LLM 과 전통적인 BERT 기반 모델을 효과적으로 통합하여, 비표준화된 복잡한 문서 분석 문제를 해결할 수 있는 강력한 아키텍처를 제시했다는 점에서 의미가 있습니다.