A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Cet article propose une architecture à deux étapes automatisant l'analyse des accords de non-divulgation (NDA) en utilisant LLaMA-3.1-8B-Instruct pour la segmentation des clauses et un Legal-Roberta-Large affiné pour leur classification, atteignant des performances élevées avec un score F1 de 0,95 pour la segmentation et 0,85 pour la classification.

Ana Begnini, Matheus Vicente, Leonardo Souza

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un avocat ou un chef d'entreprise. Vous devez signer des Accords de Non-Divulgation (NDA), ces fameux contrats qui disent : « Ce que je te dis, tu ne le racontes à personne ».

Le problème ? Ces contrats sont souvent écrits dans un langage juridique compliqué, avec des structures différentes à chaque fois. Les lire et les analyser à la main, c'est comme essayer de trier une immense pile de lettres écrites dans des styles différents, avec des plis et des pliages bizarres. C'est lent, ennuyeux, et on risque de faire des erreurs.

C'est là que les auteurs de cette étude (Ana, Matheus et Leonardo) ont proposé une solution intelligente : un robot en deux étapes pour faire ce travail à votre place.

Voici comment ça marche, expliqué simplement avec des analogies :

Étape 1 : Le « Découpe-Pizza » (La Segmentation)

Imaginez que le contrat est une grosse pizza entière (le document complet). Avant de pouvoir la manger ou l'analyser, il faut la couper en parts individuelles (les clauses).

  • Le défi : Parfois, la pizza est découpée en parts égales, parfois en parts géantes, et parfois le couteau coupe n'importe où ! Un humain peut se tromper.
  • La solution du robot : Ils ont utilisé un super cerveau artificiel (un modèle appelé LLaMA-3.1) qui agit comme un chef cuisinier expert.
  • Comment ça marche : On donne le contrat entier au robot et on lui dit : « Hé, découpe-moi ça proprement en paragraphes distincts ». Le robot lit tout le texte, comprend où commencent et finissent les idées, et sort une liste de clauses nettes et propres.
  • Le résultat : C'est extrêmement précis. Le robot a réussi à recopier le texte original avec une fidélité de 95 %. C'est comme si le robot avait découpé la pizza exactement comme vous l'auriez fait, sans perdre un seul morceau de fromage (d'information).

Étape 2 : Le « Trieur de Postes » (La Classification)

Une fois que vous avez vos parts de pizza (les clauses), il faut savoir ce qu'il y a dedans. Est-ce une clause sur le prix ? Sur la durée ? Sur la confidentialité ?

  • Le défi : Il y a 14 catégories différentes (comme des boîtes de tri). Certaines boîtes sont pleines à craquer (très fréquentes), d'autres sont presque vides (très rares).
  • La solution du robot : Ils ont utilisé un autre robot, un peu plus petit mais très spécialisé (un modèle appelé Legal-Roberta), qui agit comme un trieur de courrier ultra-rapide.
  • Comment ça marche : Le robot prend chaque clause découpée à l'étape 1 et la glisse dans la bonne boîte.
    • Si la clause parle de « qui sont les parties », elle va dans la boîte « Identification ».
    • Si elle parle de « combien de temps ça dure », elle va dans la boîte « Durée ».
  • Le résultat : Le robot est très bon pour les boîtes pleines (il réussit à 85 % en moyenne). C'est comme un trieur de courrier qui voit 100 lettres sur 100 et en classe correctement 85. Le problème, c'est qu'il a un peu de mal avec les lettres très rares (les clauses peu fréquentes), un peu comme un trieur qui ne voit jamais certains types de courriers et qui hésite un peu.

Pourquoi c'est génial ?

  1. Gain de temps : Au lieu de passer des heures à lire, le robot le fait en quelques secondes.
  2. Moins d'erreurs : Le robot ne se fatigue pas et ne rate pas une clause importante parce qu'il a eu les yeux qui piquent.
  3. Adaptabilité : Le système est conçu pour apprendre. Aujourd'hui, il découpe et trie. Demain, il pourra peut-être même suggérer des corrections ou dire : « Attention, cette clause est dangereuse ! ».

En résumé

Les chercheurs ont créé un assistant juridique en duo :

  • Le premier est un grand expert qui lit le contrat entier et le découpe en morceaux gérables.
  • Le second est un spécialiste qui regarde chaque morceau et lui colle une étiquette précise.

C'est une première étape formidable pour transformer le travail juridique, autrefois fastidieux et manuel, en un processus fluide et automatisé, un peu comme passer d'un comptable qui additionne tout à la main à un logiciel de comptabilité intelligent.