A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

该论文提出了一种结合 LLaMA-3.1-8B-Instruct 进行条款分割与微调 Legal-Roberta-Large 进行条款分类的两阶段架构,有效实现了非结构化保密协议(NDA)的自动化分析,并在分割和分类任务中分别取得了 0.95 和 0.85 的优异性能指标。

Ana Begnini, Matheus Vicente, Leonardo Souza

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个**“智能法律助手”的故事,它的主要任务是帮律师们快速处理一种叫“保密协议”(NDA)**的复杂文件。

想象一下,你是一家公司的法务,每天要收到几十份来自不同公司的保密协议。这些文件就像**“千奇百怪的食谱”**:有的写得像诗歌,有的像说明书,有的排版像报纸,有的像手写信。而且,每份协议里都藏着很多重要的“条款”(比如:谁能看秘密?秘密管多久?违约了赔多少?)。

以前,律师只能人工一份份读,把条款找出来,再分类。这就像让一个人在一堆乱糟糟的乐高积木里,凭肉眼把红色的积木挑出来,再按形状分类。既慢又容易看走眼。

为了解决这个问题,作者们设计了一个**“双阶段智能流水线”,就像给律师配了一对“超级搭档”**:

第一阶段:超级裁缝(Segmenter)

角色: 负责把整份乱糟糟的文件,像切蛋糕一样,精准地切成一块块独立的“条款”。

  • 它是怎么工作的?
    他们请来了一个**“大嘴巴”AI 模型(LLaMA-3.1)**。这个模型读过很多书,特别擅长理解长文章。
    • 比喻: 想象你有一篇几千字、格式混乱的长文章。这个 AI 就像一个经验丰富的裁缝,它拿着剪刀(提示词 Prompt),不管布料(文档)是皱是平,都能精准地沿着“接缝”(条款边界)把衣服剪成一件件独立的衬衫、裤子和袜子。
    • 难点: 因为每份协议的“剪裁风格”都不一样,有的用标题分,有的用数字分,有的甚至没有分。
    • 成果: 这个裁缝非常厉害,它切出来的“布料”和标准答案的相似度高达 95%。也就是说,它几乎没切坏,也没漏掉任何重要内容。

第二阶段:智能图书管理员(Classifier)

角色: 负责把切好的每一块“布料”(条款),贴上正确的标签,放进对应的抽屉里。

  • 它是怎么工作的?
    他们训练了一个**“法律专家”AI 模型(Legal-Roberta)**。这个模型专门学过法律术语。
    • 比喻: 想象切好的条款被送到了图书馆。这个图书管理员看到一段话,马上就能认出:“哦,这是关于‘赔偿’的条款,放进第 8 号抽屉”;“那是关于‘知识产权’的,放进第 11 号抽屉”。
    • 挑战: 这里有个大麻烦——“偏科”。就像图书馆里,关于“赔偿”的书有几千本,但关于“员工管理”的书只有几本。AI 容易学会处理常见的书,却搞不定那些稀有的书。而且,一段话可能同时属于两个抽屉(比如既涉及赔偿又涉及期限),这叫“多标签分类”。
    • 成果: 尽管有“偏科”问题,这位管理员在常见条款上的分类准确率达到了 85%。对于大多数情况,它已经非常靠谱了。

为什么这个系统很酷?

  1. 它不挑肥拣瘦: 不管保密协议是长得像天书,还是排版像迷宫,这个系统都能搞定。
  2. 它懂得“对齐”: 在检查裁缝切得准不准时,作者用了一种叫**“ Needleman-Wunsch"**的算法。
    • 比喻: 这就像在比较两串珍珠项链。如果 AI 切出来的项链和标准项链珠子顺序有点乱,这个算法能聪明地把它们**“对齐”**,算出它们到底有多少是匹配的,而不是死板地一一对比。这让评估结果更公平、更准确。
  3. 它解决了“数据荒”: 保密协议通常都是机密的,很难找到足够的样本给 AI 学习。作者们找来了 300 多份公开协议,让三个法律专家手动标注(就像给 AI 找老师),虽然样本不算多,但已经足够让 AI 入门了。

总结与未来

简单来说,这篇论文就是造了一个**“自动拆书 + 自动分类”**的机器。

  • 现在: 它能帮律师把几千字的协议瞬间拆成小段,并标出大概是什么内容,大大减少了人工阅读的时间。
  • 未来: 作者们希望这个系统不仅能“拆”和“分”,还能像**“资深律师顾问”**一样,自动检查条款里有没有坑,甚至直接建议怎么修改。

一句话总结: 以前律师是**“在乱麻里找线头”,现在有了这个双 AI 系统,就像有了“自动理线机”**,让法律审查变得更快、更准、更省心。