SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Each language version is independently generated for its own context, not a direct translation.

📚 1. 왜 이 도서관이 필요할까요? (배경)

스리랑카의 공용어인 싱할라어로 된 법률 문서 (법률과 법안) 는 매우 중요합니다. 하지만 이 문서들은 대부분 스캔된 이미지 (PDF) 형태로만 남아 있었습니다.

문제점: 컴퓨터는 이미지 속 글자를 읽을 수 없습니다. 마치 손으로 쓴 편지를 컴퓨터가 읽으려다 보니 글자가 뭉개지거나 엉뚱한 글자로 변해버리는 상황과 같습니다.
목표: 연구자들은 이 '읽을 수 없는' 문서들을 컴퓨터가 이해할 수 있는 '깨끗한 텍스트'로 바꾸고, 이를 분석할 수 있는 **데이터 세트 (재료)**를 만들고 싶었습니다.

🛠️ 2. 도서관을 짓는 과정 (방법론)

연구자들은 다음과 같은 4 단계 과정을 거쳤습니다.

① 자료 수집 (책장 채우기)

스리랑카 정부 웹사이트와 GitHub 에서 1981 년부터 2014 년까지의 법률 (Acts) 1,065 편과 법안 (Bills) 141 편을 모았습니다. 총 1,206 개의 문서입니다.
비유: 마치 40 년 치의 낡은 법전들을 한곳으로 모아온 것과 같습니다.

② OCR 작업 (글자 읽기)

구글의 Document AI라는 강력한 '로봇 사서'를 투입했습니다. 이 로봇은 이미지 속 글자를 텍스트로 변환했습니다.
하지만 로봇도 완벽하지 않아서, 긴 문서 (15 페이지 이상) 는 잘게 쪼개서 읽어야 했습니다.

③ 필터링 (불량품 제거)

모든 문서가 쓸모 있는 것은 아니었습니다.
- 양면 인쇄로 글자가 겹쳐서 읽히지 않는 것 → 버림
- 50 페이지가 넘는 너무 긴 문서 (표나 복잡한 레이아웃 때문에 글자가 엉망이 됨) → 버림
- 여러 열로 나뉘어 있는 문서 → 버림
결과적으로 2,865 개 중 1,206 개의 '최고급' 문서만 남겼습니다.

④ 손질 작업 (청소 및 정리)

로봇이 읽은 텍스트에는 오류가 많았습니다.
- "페이지 번호", "도장", "물방울" 같은 불필요한 것들 제거.
- 문장 사이사이의 불필요한 공백 정리.
- 틀린 철자를 사람이 직접 고침 (원어민 연구자가 수작업).
비유: 마치 낡은 책의 표지를 벗기고, 찢어진 페이지를 붙이고, 오타를 수정하여 새 책처럼 깨끗하게 만드는 과정입니다.

🔍 3. 도서관을 분석해 보니 (평가 결과)

이제 만들어진 SINHALEGAL 데이터베이스를 분석해 보았습니다.

규모: 약 200 만 단어가 담겨 있습니다.
특징: 법률 용어는 일반 말과 다릅니다.
- 반복되는 단어: "그리고 (සහ)", "하기 위해 (සඳහා)" 같은 접속사들이 매우 자주 나옵니다.
- 희귀한 단어: "특정 사건", "독특한 기관명" 같은 단어는 한 번만 나오기도 합니다.
- 비유: 법률 문서는 매일 같은 메뉴를 반복해서 주문하는 식당과 같습니다. "밥, 국, 반찬"은 매일 나오지만, 가끔 "특별 메뉴"가 나오기도 하죠.
엔티티 인식 (NER): 컴퓨터가 문서에서 날짜, 사람 이름, 기관명, 금액 등을 찾아내는 능력을 테스트했습니다. 약 2 만 9 천 개의 중요한 정보를 찾아냈습니다.
주제 분석: 문서들을 묶어보니 법률 개정, 선거, 연금, 위원회 같은 주제가 자주 등장한다는 것을 발견했습니다.

🤖 4. 인공지능은 이걸 잘 이해할까요? (언어 모델 평가)

최신 인공지능 (LLM) 들에게 이 법률 데이터를 먹여보았습니다.

결과: 인공지능은 일반적인 스리랑카 말보다 법률 문장을 더 잘 예측했습니다.
이유: 법률 문장은 형식이 정해져 있고 반복되는 패턴이 많기 때문입니다.
- 비유: 일반 대화는 "오늘 날씨 어때? 밥 뭐 먹지?"처럼 매번 달라서 예측하기 어렵지만, 법률 문장은 "이 법은 ~에 해당한다"처럼 형식이 정해져 있어 인공지능이 "다음에 뭐가 나올지" 쉽게 맞출 수 있습니다.

💡 5. 결론: 왜 이 연구가 중요한가요?

이 SINHALEGAL 프로젝트는 스리랑카의 법률 연구에 **비로소 '디지털 시대의 나침반'**을 제공한 것입니다.

이전: 법률 문서는 이미지로만 있어서 검색하거나 분석하기가 거의 불가능했습니다.
이제: 컴퓨터가 읽을 수 있는 형태로 정리되었기 때문에, 법률 요약, 정보 추출, 과거 법률 변화 분석 등이 가능해졌습니다.

한 줄 요약:

"오래되고 읽기 힘든 스리랑카 법전들을 로봇이 읽고, 사람이 다듬어, 컴퓨터가 이해할 수 있는 보물창고로 만든 프로젝트입니다."

이 데이터는 앞으로 인공지능이 법률을 도와주는 '법률 비서'를 만드는 데 필수적인 기초 자료가 될 것입니다.

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

📚 1. 왜 이 도서관이 필요할까요? (배경)

🛠️ 2. 도서관을 짓는 과정 (방법론)

🔍 3. 도서관을 분석해 보니 (평가 결과)

🤖 4. 인공지능은 이걸 잘 이해할까요? (언어 모델 평가)

💡 5. 결론: 왜 이 연구가 중요한가요?

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

📚 1. 왜 이 도서관이 필요할까요? (배경)

🛠️ 2. 도서관을 짓는 과정 (방법론)

🔍 3. 도서관을 분석해 보니 (평가 결과)

🤖 4. 인공지능은 이걸 잘 이해할까요? (언어 모델 평가)

💡 5. 결론: 왜 이 연구가 중요한가요?

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models