LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

이 논문은 텍스트 속성 그래프의 풍부한 엣지 정보를 활용하고, 그래프 증강을 통한 대비 학습을 강화하며, 대규모 언어 모델 (LLM) 에서 파생된 컨텍스트 기반 임베딩을 통합한 LEXA 모델을 제안하여 기존 법률 사례 검색 방법론보다 우수한 성능을 달성함을 보여줍니다.

Yanran Tang, Ruihong Qiu, Yilun Liu, Xue Li, Zi Huang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 배경: 왜 이 연구가 필요할까요?

상상해 보세요. 변호사나 판사가 새로운 사건을 처리할 때, 과거에 비슷한 사건이 어떻게 판결되었는지 찾아야 합니다. 이를 **선례 (Precedent)**를 찾는 일이라고 합니다.

하지만 법원 도서관에는 수백만 권의 책 (사건 기록) 이 쌓여 있습니다.

  • 기존 방법 (BM25, 일반 언어 모델): 단순히 '단어'가 얼마나 많이 겹치는지 세어보는 방식입니다. "사과"라는 단어가 많으면 사과 관련 책으로 분류하는 식이죠. 하지만 법률은 단어만 겹친다고 해서 내용이 같지 않습니다. "사과"가 과일인지, "죄"인지에 따라 완전히 다른 의미가 됩니다.
  • 이전 연구 (CaseGNN): 단순히 단어만 보는 게 아니라, 사건 속의 '사람', '사실', '증거'들이 어떻게 연결되어 있는지 **관계도 (그래프)**를 그려서 분석했습니다. 하지만 이 방법에도 세 가지 큰 문제가 있었습니다.

🚧 이전 모델 (CaseGNN) 의 세 가지 문제점

  1. 연결고리 (Edge) 를 무시함: 사건 속의 '사람 A 와 사람 B 는 친구다'라는 관계 자체를 분석하지 않고, 사람 (노드) 정보만 업데이트했습니다. 마치 친구 관계를 무시하고 사람 이름만 외우는 것과 같습니다.
  2. 배울 게 너무 적음: 법률 데이터는 전문가가 직접 라벨을 붙여야 해서 매우 귀하고 적습니다. 모델이 배울 수 있는 '문제 (학습 신호)'가 부족했습니다.
  3. 맥락을 못 읽음: AI 가 문장을 읽을 때, 문맥을 깊이 있게 이해하지 못해 미묘한 뉘앙스를 놓쳤습니다.

✨ 해결책: LEXA 모델의 3 가지 마법

이 논문에서 제안한 LEXA는 이 세 가지 문제를 해결하기 위해 세 가지 마법을 부렸습니다.

1. 🔄 "관계도까지 업데이트하는" EUGAT (Edge-updated Graph Attention Layer)

  • 비유: 기존 모델은 친구 관계 (연결선) 를 고정된 줄로만 생각했지만, LEXA 는 친구 관계 자체도 변할 수 있다고 생각합니다.
  • 설명: 사건 속의 '사람' 정보만 업데이트하는 게 아니라, 그 사람들과의 '관계' 정보도 함께 업데이트합니다. 예를 들어, "A 와 B 는 친구"라는 관계가 사건 흐름에 따라 "A 와 B 는 적대적"으로 변할 수 있다면, AI 는 그 관계의 의미도 함께 바뀐다고 이해합니다. 이렇게 하면 사건의 구조를 훨씬 더 정교하게 파악할 수 있습니다.

2. 🎭 "가상 시나리오"를 만들어 학습하는 그래프 대비 학습 (Graph Contrastive Learning)

  • 비유: 법률 전문가가 부족한 상황에서, AI 가 스스로 가상의 사건을 만들어 연습하는 것입니다.
  • 설명: 실제 데이터가 부족하니까, AI 가 원본 사건 그래프에서 일부 연결선을 끊거나 (Edge Dropping), 정보를 가리는 (Feature Masking) 방식으로 '가상 사건'을 만듭니다. 그리고 "원본 사건과 가상 사건은 같은 사건이야"라고 가르쳐주면서, AI 가 사건의 핵심 구조를 더 잘 이해하도록 훈련시킵니다. 마치 미로에서 길을 잃지 않기 위해 다양한 변형된 미로를 그려보는 것과 같습니다.

3. 🧠 "법률 박사"가 된 거대 언어 모델 (LLM) 활용

  • 비유: 일반인 (기존 모델) 이 법전을 읽으면 어렵지만, **법률 박사 (최신 LLM)**가 읽으면 뉘앙스까지 다 이해합니다.
  • 설명: LEXA 는 최신 거대 언어 모델 (Qwen3-8B 등) 을 "법률 박사"로 훈련시켜서, 사건 속의 '사실'과 '쟁점'을 매우 정교하게 해석하게 합니다. 이 박사가 만든 해석을 바탕으로 AI 가 사건을 분석하므로, 단어의 표면적 의미뿐만 아니라 숨겨진 법적 맥락까지 파악할 수 있습니다.

🏆 결과: 얼마나 잘할까요?

이 모델은 캐나다 연방 법원의 실제 사건 데이터 (COLIEE 2022, 2023) 로 실험했습니다.

  • 결과: 기존에 가장 잘하던 모델들보다 압도적으로 높은 점수를 받았습니다.
  • 의미: 변호사들이 과거 판례를 찾을 때, LEXA 를 쓰면 훨씬 더 빠르고 정확하게 필요한 사건을 찾아낼 수 있게 되었습니다.

💡 한 줄 요약

LEXA는 단순한 단어 매칭을 넘어, 사건 속의 복잡한 인간 관계와 법적 맥락을 '명탐정'처럼 깊이 있게 분석하고, 부족한 데이터를 보완하기 위해 스스로 가상 훈련까지 하며, 최신 법률 박사 AI의 도움을 받아 가장 정확한 판결 선례를 찾아주는 차세대 법률 검색 시스템입니다.

이 기술은 앞으로 법률 서비스의 접근성을 높이고, 판사와 변호사의 업무 효율을 크게 개선할 것으로 기대됩니다.