SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

本文介绍了名为 SinhaLegal 的斯里兰卡立法文本语料库,该语料库包含约 200 万词的 1206 份法律文件,经过 OCR 提取与人工清洗,并通过词汇分析、命名实体识别及语言模型困惑度评估等综合实验,为 Sinhala 法律领域的信息抽取与分析研究提供了关键资源。

Minduli Lasandi, Nevidu Jayatilleke

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SINHALEGAL 的项目,你可以把它想象成是为斯里兰卡僧伽罗语(Sinhala)法律界打造的一座**“数字图书馆”**。

在僧伽罗语的法律世界里,之前就像是一片未经开垦的荒野:虽然有很多法律文件(法案和草案),但它们大多躺在发霉的档案馆里,或者是以模糊的扫描件形式存在,电脑根本读不懂,人类想搜索也找不到。

这篇论文就是关于如何把这片荒野变成一座整洁、有序、甚至能自动回答问题的**“智能法律花园”**的故事。

以下是用通俗语言和比喻对论文核心内容的解读:

1. 收集种子:从“乱石堆”到“精选库”

  • 背景:研究人员从 GitHub 上获取了成千上万个斯里兰卡的法律 PDF 文件。这些文件就像是从旧货市场淘来的**“乱石堆”**,里面混杂着各种格式、年份,甚至有很多是双页打印导致文字重叠的“坏石头”。
  • 筛选:他们像淘金者一样,仔细筛选了这些文件。
    • 他们只留下了“法案(Acts)”和“草案(Bills)”这两类最核心的“金矿”。
    • 他们扔掉了那些排版太乱、扫描太模糊(OCR 识别率太低)的文件,就像把那些全是沙子的石头扔掉,只留下纯金。
    • 最终,他们从 2800 多份文件中,精选出了 1,206 份 高质量的法律文档,构成了这个数据集的核心。

2. 清洗与打磨:给法律文件“做 SPA"

  • OCR 技术(光学字符识别):这些法律文件大多是扫描图片,电脑无法直接阅读。研究人员使用了谷歌的 AI 工具(Google Document AI)作为**“超级扫描仪”**,把图片里的字“翻译”成电脑能懂的文本。
  • 人工精修(Post-processing):这是最关键的一步。就像给刚洗好的衣服熨烫一样,研究人员(母语为僧伽罗语的专家)手动清理了扫描后的“脏东西”:
    • 去噪:删掉了页码、水印、重复的标题和无关的印章图案。
    • 修补:修正了 OCR 识别错误的错别字(比如把“法律”识别成了乱码)。
    • 整理:把断断续续的句子连起来,把乱飞的空格和换行符理顺。
    • 经过这番“大扫除”,原本杂乱无章的文本变得像印刷精美的书籍一样干净、流畅。

3. 给花园做“体检”:数据长什么样?

为了让别人知道这个数据集有多好,研究人员对它进行了一系列“体检”:

  • 词汇多样性:法律语言非常特殊,就像行话。研究发现,虽然总字数有 200 多万,但很多词是重复的(比如“根据”、“应当”),这符合法律文件严谨、重复的特点。
  • 实体识别(NER):他们训练了一个“侦探”,能在文本里自动找出日期、人名、机构名(如议会、法院)、法律名称和金额。这就像给文档贴上了智能标签,以后想找“关于 2010 年议会通过的某项法案”就非常容易了。
  • 主题模型:通过算法分析,他们发现这些法律文件主要讨论的主题包括:议会、法院、选举、养老金和金钱。这就像给图书馆里的书自动分好了类。

4. 测试“大脑”:AI 能读懂吗?

研究人员把这座“图书馆”喂给了几个目前最流行的 AI 大模型(如 Llama, Mistral 等),看看它们能不能读懂僧伽罗语法律。

  • 惊喜发现:AI 在法律文本上的表现,竟然比在普通日常对话上还要好(困惑度更低)。
  • 原因:这就像背课文。法律文件虽然难懂,但结构非常固定,套路很深(比如总是以“本法规定..."开头)。AI 一旦掌握了这些固定的“套路”,预测下一个字就变得非常容易。而普通人的聊天千变万化,AI 反而更难猜。

5. 为什么这很重要?(填补空白)

  • 现状:英语、中文、德语等语言都有很好的法律 AI 数据集,但僧伽罗语(斯里兰卡的主要语言)之前是一片**“数据荒漠”**。
  • 意义:SINHALEGAL 就像是在这片荒漠里打了一口**“深井”**。
    • 它让未来的 AI 助手可以帮律师快速总结案情。
    • 它能让普通公民更容易查询法律条文。
    • 它填补了僧伽罗语法律研究的巨大空白,让技术能真正服务于当地社会。

总结

简单来说,这篇论文就是把一堆模糊、杂乱、难以阅读的僧伽罗语法律扫描件,通过高科技扫描和人工精修,变成了一座干净、有序、机器可读的“法律宝库”。这不仅为 AI 学习法律语言提供了教材,也为斯里兰卡的法律数字化迈出了坚实的一步。