A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

이 논문은 LLaMA-3.1-8B-Instruct 를 활용한 구문 분할과 Legal-Roberta-Large 를 적용한 조항 분류로 구성된 2 단계 아키텍처를 제안하여, 다양한 형식의 비공개계약서 (NDA) 분석을 자동화하고 높은 정확도를 달성했음을 보여줍니다.

Ana Begnini, Matheus Vicente, Leonardo Souza

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 배경: 왜 이 프로젝트가 필요할까요?

상사들끼리 비밀을 지키기로 약속하는 '비밀유지계약서 (NDA)'는 회사마다, 사람마다 글씨체도 다르고, 문장 구조도 제각각입니다. 어떤 건 1 페이지이고, 어떤 건 100 페이지입니다.

기존에는 법률 전문가들이 이 방대한 문서들을 눈으로 하나하나 읽어가며 "여기엔 비밀 조항이 있네", "저기엔 책임 조항이 있네"라고 일일이 찾아서 분류해야 했습니다. 이는 시간도 오래 걸리고, 실수할 확률도 높으며, 눈이 피로해지는 매우 힘든 일이었습니다.

🛠️ 해결책: 두 명의 AI 전문가 팀

저자들은 이 문제를 해결하기 위해 두 단계로 나뉜 AI 팀을 꾸렸습니다. 마치 거대한 책장을 정리하는 두 명의 전문가가 협력하는 것과 같습니다.

1 단계: '책장 정리사' (Segmenter) - LLM 기반

  • 역할: 뭉개져 있는 거대한 계약서 원고를 받아서, 조항 (Clause) 단위로 잘게 찢어서 정리하는 일입니다.
  • 사용한 도구: LLaMA-3.1-8B-Instruct라는 거대 언어 모델 (LLM) 을 사용했습니다.
  • 비유: 이 모델은 마법 같은 가위를 들고 있습니다. 계약서 전체를 읽으면서 "여기부터가 새로운 조항이야, 여기까지가 끝이야"라고 정확하게 잘라냅니다.
  • 특이사항: 계약서에는 표나 헤더 같은 복잡한 형식도 많아서 AI 가 헷갈릴 수 있지만, 이 AI 는 95% 이상의 정확도로 원문의 내용을 잃지 않고 잘라냈습니다. (ROUGE 점수 0.95)

2 단계: '분류 전문가' (Classifier) - Transformer 기반

  • 역할: 1 단계에서 잘라낸 작은 조항들을 보고, **"이건 '비밀 정보 정의' 조항이야", "이건 '위반 시 벌금' 조항이야"**라고 라벨을 붙이는 일입니다.
  • 사용한 도구: Legal-Roberta-Large라는 법률에 특화된 AI 모델을 사용했습니다.
  • 비유: 이 모델은 법률 도서관의 사서와 같습니다. 잘라낸 문장들을 보고 14 가지 카테고리 (예: 비밀 정보, 책임, 계약 기간 등) 중 어디에 속하는지 딱딱 분류합니다.
  • 성공: 전체적으로 85% 의 높은 정확도로 분류에 성공했습니다. 다만, 아주 드물게 나오는 조항 (소수 클래스) 은 분류하는 데 조금 어려움을 겪었습니다.

🧩 핵심 기술: 어떻게 이렇게 정확하게 했을까요?

  1. vLLM 이라는 '고속도로': AI 가 문서를 처리할 때 메모리를 효율적으로 관리해서, 일반 컴퓨터보다 훨씬 빠르고 가볍게 작동하게 했습니다.
  2. Needleman-Wunsch 알고리즘 (맞춤법 검사기): AI 가 잘라낸 문장과 사람이 정답으로 적은 문장이 정확히 일치하는지 비교할 때, 단순히 줄을 세우는 게 아니라 문장 간의 유사도를 계산하는 정교한 알고리즘을 써서 오차를 줄였습니다.
  3. 불균형 문제 해결: 계약서에는 '비밀 정보' 조항은 많지만 '특정 조항'은 아주 적은 경우가 많습니다. 이를 해결하기 위해 Focal Loss라는 기술을 써서, AI 가 드문 조항도 놓치지 않도록 훈련시켰습니다.

📊 결과: 얼마나 잘했나요?

  • 잘라내기 (Segmentation): 원문의 내용을 95% 이상 완벽하게 보존하면서 잘라냈습니다. (거의 실수 없음)
  • 분류하기 (Classification): 자주 나오는 조항들은 거의 완벽하게 분류했고, 전체적인 정확도도 매우 높았습니다.

🔮 미래: 앞으로는 어떻게 될까요?

현재는 정리하고 분류하는 것까지 했지만, 앞으로는 다음과 같은 일을 할 계획입니다.

  • 데이터 부족 해결: 비밀유지계약서는 회사 비밀이라 구하기 어렵습니다. AI 가 더 많은 데이터를 학습할 수 있도록 가상의 데이터를 만들어 훈련시키는 기술을 도입할 예정입니다.
  • 완전 자동화 시스템: 단순히 분류하는 것을 넘어, **"이 조항은 위험해", "이 부분은 수정해야 해"**라고 법률 전문가가 대신 조언해주는 시스템으로 발전시킬 것입니다.

💡 한 줄 요약

**"다양하고 복잡한 비밀유지계약서를 AI 가 '마법 가위'로 잘게 잘라내고, '전문 사서'가 분류하게 함으로써, 법률 전문가들의 귀중한 시간을 아껴주고 실수를 줄여주는 혁신적인 시스템"**을 제안한 연구입니다.