Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej

이 논문은 인도 법률 문서 생성의 데이터 부족과 복잡성 문제를 해결하기 위해 인도 로펌과 협력하여 구축한 대규모 익명화 데이터셋 'VidhikDastaavej'와 다양한 LLM 에 적용 가능한 2 단계 생성 프레임워크 'MAW'를 제안하여 사실적 정확성과 일관성을 크게 향상시킨 연구 결과를 제시합니다.

Shubham Kumar Nigam, Balaramamahanthi Deepak Patnaik, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya

게시일 2026-03-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "AI 가 변호사가 되려다 망친다?"

인도에서는 AI 가 판결문을 요약하거나 사건을 검색하는 데는 꽤 잘합니다. 하지만 새로운 법률 계약서나 위임장 같은 '개인 법률 문서'를 직접 작성하는 것은 아직 어렵습니다.

  • 왜 어려울까요?
    • 비밀 유지: 개인 계약서들은 대부분 비밀이라 공개된 데이터가 거의 없습니다. (도서관에 책이 없어서 공부를 못 하는 상황)
    • 구조의 복잡성: 법률 문서는 특정 순서와 형식이 매우 중요합니다. AI 가 막상 글을 쓰려고 하면, 중요한 조항을 빼먹거나 엉뚱한 내용을 지어내는 (할루시네이션) 경우가 많습니다.
    • 모델의 변화: AI 모델이 너무 빨리 변해서, 한 번 훈련시킨 모델은 금방 구식이 됩니다.

2. 해결책 1: "비밀 도서관" (VidhikDastaavej 데이터셋)

연구팀은 인도 법률 사무소와 협력하여 133 가지 종류의 11,000 개 이상의 실제 법률 문서를 모았습니다.

  • 비유: 마치 비밀리에 보관된 거대한 법률 도서관을 만든 것과 같습니다.
  • 특징: 모든 문서에서 사람 이름, 회사 이름 등 개인 정보는 [사람], [회사] 처럼 가려서 (익명화) 처리했습니다. 그래서 AI 가 학습할 때는 실제 내용을 배우되, 개인의 비밀은 지킬 수 있습니다.
  • 이름: 'VidhikDastaavej'는 힌디어로 '법 (Vidhik)'과 '문서 (Dastaavej)'를 합친 말입니다.

3. 해결책 2: "현명한 감독관" (MAW, 모델-무관 래퍼)

가장 중요한 부분은 AI 모델 자체를 바꿀 필요 없이, 작업 방식을 바꾸는 것입니다. 연구팀은 MAW(Model-Agnostic Wrapper) 라는 시스템을 개발했습니다.

  • 기존 방식 (SFT): AI 에게 "계약서 써봐"라고 하면, AI 가 머릿속으로 모든 걸 기억해서 한 번에 작성합니다. (초보 작가가 두서없이 글을 쓰는 상황)

  • 새로운 방식 (MAW): AI 에게 두 단계로 나누어 지시합니다.

    1. 목차 먼저 짜기: "이 계약서에 어떤 장 (Chapter) 들이 필요할까?"라고 먼저 물어보고 목차를 만듭니다. (사용자가 이 목차를 수정할 수도 있습니다.)
    2. 조각조각 작성하기: 이제 목차에 맞춰 한 장씩 글을 씁니다. 이때, 이전 장의 내용을 기억하고 (검색해서) 다음 장에 반영하도록 돕습니다.
  • 비유:

    • 기존: 한 명의 초보 작가에게 "100 페이지짜리 소설 써줘"라고 시키면, 중간에 줄거리가 꼬이거나 인물이 사라집니다.
    • MAW: 经验丰富的 편집자 (래퍼) 가 먼저 "제 1 장은 배경, 제 2 장은 등장인물, 제 3 장은 사건..."이라는 목차를 먼저 짭니다. 그리고 작가는 이 목차대로 한 장씩 쓰되, 편집자가 "아까 제 1 장에서 말한 인물이니까 제 3 장에도 나오게 해줘"라고 참고 자료 (검색) 를 챙겨줍니다.
    • 결과: 어떤 AI 모델 (오픈소스든 유료 모델이든) 을 쓰더라도, 이 '편집자 시스템'만 붙이면 훨씬 논리적이고 정확한 문서가 나옵니다.

4. 검증: "실제 변호사들이 평가했다"

단순히 AI 점수만 본 게 아니라, 실제 인도 변호사 3 명이 생성된 문서를 직접 평가했습니다.

  • 평가 기준:
    1. 사실 정확도: 지시사항을 잘 따랐는지, 엉뚱한 법 조항을 지어내지 않았는지.
    2. 완전성: 빠진 조항이 없는지.
  • 결과:
    • 기존에 AI 를 훈련시킨 (SFT) 방법보다는 MAW 방식이 훨씬 점수가 높았습니다.
    • 심지어 비싼 유료 AI(GPT-4o) 보다도 오픈소스 모델을 MAW 로 감싸서 쓴 결과가 변호사들의 평가에서 더 좋거나 비슷했습니다.
    • 특히 할루시네이션 (거짓 정보) 이 크게 줄었습니다.

5. 핵심 요약 및 의의

이 연구는 다음과 같은 세 가지 큰 업적을 남겼습니다.

  1. 데이터: 인도 법률 문서 작성을 위한 최초의 대규모 공개 데이터셋을 만들었습니다.
  2. 방법론: 특정 AI 모델에 의존하지 않고, 목차 계획 + 검색 기반 작성이라는 '현명한 작업 방식'을 제안했습니다.
  3. 실용성: 변호사들이 직접 수정하고 확인할 수 있는 인터페이스를 만들어, AI 가法律文书를 완전히 대체하는 게 아니라 보조 도구로 쓰이게 했습니다.

한 줄 요약:

"AI 가 법률 문서를 잘 쓰게 하려면, 더 똑똑한 AI 를 만드는 것보다 작업 순서를 잘 짜주고 (목차 먼저), 필요한 자료를 찾아주는 (검색) 시스템을 붙이는 것이 훨씬 효과적이다."

이 기술은 앞으로 법률 비용이 많이 드는 문제를 해결하고, 일반인도 더 쉽게 양질의 법률 문서를 얻을 수 있게 하는 발판이 될 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →