Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej

Each language version is independently generated for its own context, not a direct translation.

🇮🇳 Le Projet VidhikDastaavej : Comment l'IA apprend à rédiger des contrats en Inde

Imaginez que vous êtes un avocat en Inde. Votre travail consiste à rédiger des centaines de documents juridiques : des contrats de mariage, des baux, des accords de confidentialité, etc. C'est un travail long, fastidieux et où une seule erreur peut coûter très cher.

Les chercheurs de cet article se sont dit : « Et si on utilisait l'Intelligence Artificielle (IA) pour nous aider ? »

Mais il y a un gros problème : les documents privés d'avocats sont secrets. On ne peut pas les montrer à tout le monde pour entraîner une IA. C'est comme essayer d'apprendre à cuisiner un plat secret sans jamais avoir vu la recette ni goûté les ingrédients.

Voici comment ils ont résolu le problème, étape par étape, avec des analogies simples.

1. La Grande Bibliothèque Anonyme (Le Dataset)

Pour entraîner l'IA, il faut des exemples. Les chercheurs ont collaboré avec un cabinet d'avocats indien pour créer VidhikDastaavej.

L'analogie : Imaginez une immense bibliothèque contenant 11 000 recettes de cuisine (des documents juridiques) de 133 types différents (du gâteau au fromage au curry épicé).
Le secret : Avant de mettre ces livres sur les étagères, ils ont passé chaque page au tamis pour effacer tous les noms de personnes, d'entreprises ou d'adresses. C'est comme remplacer "Le Chef Pierre" par "Le Chef [PERSONNE]" et "La Rue de Paris" par "[LIEU]".
Le résultat : Une bibliothèque géante, privée, mais parfaitement sûre, qui sert de manuel d'apprentissage pour l'IA.

2. Le Problème : L'IA qui "Rêve" (Hallucinations)

Normalement, quand on demande à une IA de rédiger un contrat, elle a tendance à inventer des choses. C'est ce qu'on appelle une hallucination.

L'analogie : C'est comme demander à un élève de recopier un texte. S'il ne connaît pas bien le sujet, il va inventer des phrases qui sonnent bien mais qui sont fausses. Par exemple, dans un contrat de location, il pourrait écrire : "Le locataire peut sous-louer l'appartement à un éléphant" alors que le contrat dit le contraire. En droit, inventer une clause est dangereux.

3. La Solution : Le "Wrapper" (L'Assistant Organisé)

Au lieu de demander à l'IA de rédiger tout le contrat d'un seul coup (ce qui la fait paniquer et inventer), les chercheurs ont créé un système appelé MAW (Model-Agnostic Wrapper).

L'analogie : Imaginez que vous devez construire une maison.
- La méthode classique (Fine-tuning) : Vous donnez un tas de briques à un maçon et vous dites "Fais une maison". Il va peut-être construire un toit à l'envers ou oublier les fenêtres.
- La méthode MAW (Le Wrapper) : Vous avez un chef de chantier (le Wrapper).
  1. Étape 1 (Planification) : Le chef de chantier dessine d'abord le plan : "Voici les fondations, voici les murs, voici le toit". Il vérifie que le plan est logique.
  2. Étape 2 (Construction par pièces) : Il demande ensuite à l'IA de construire une seule pièce à la fois (d'abord la cuisine, puis la chambre).
  3. Étape 3 (La Mémoire) : À chaque fois qu'une pièce est finie, le chef de chantier la note dans un carnet (une base de données). Quand il passe à la pièce suivante, il consulte le carnet pour s'assurer que la cuisine est bien connectée à la chambre.

Ce système fonctionne avec n'importe quelle IA (que ce soit une IA gratuite ou payante), comme un adaptateur universel pour une prise électrique.

4. Le Test : Les Experts Humains

Pour voir si ça marche, ils n'ont pas juste utilisé des robots pour noter les robots. Ils ont fait appel à de vrais avocats indiens.

Le test : Les avocats ont lu les contrats générés par l'IA et ont donné une note sur 10.
Le verdict :
- Les IA qui apprenaient "tout d'un coup" (sans le chef de chantier) ont eu de très mauvaises notes (souvent 1/10). Elles inventaient des lois qui n'existaient pas.
- Les IA aidées par le Wrapper (le chef de chantier) ont eu d'excellentes notes (autour de 8,8/10). Elles étaient précises, logiques et ne contenaient pas d'erreurs graves.
- Le plus surprenant : Une petite IA gratuite, aidée par ce système, a même battu une IA très puissante et payante (GPT-4o) sur certains aspects !

5. Pourquoi c'est important ?

Ce travail est une révolution pour deux raisons :

Démocratisation : Vous n'avez pas besoin d'une super-ordinateur ou d'une IA coûteuse pour avoir de bons résultats. N'importe quel modèle, même petit, peut devenir un excellent rédacteur juridique s'il est bien "encadré".
Sécurité : En Inde, le droit est complexe. Ce système permet aux avocats de gagner du temps tout en garantissant que le document final est sûr et conforme à la loi.

En résumé

Les chercheurs ont créé une bibliothèque de secrets juridiques anonymisés et ont inventé un méthode de travail en équipe (Planifier -> Construire pièce par pièce -> Vérifier) pour que l'IA ne fasse plus d'erreurs bêtes. C'est comme passer d'un apprenti qui invente tout à un architecte qui suit un plan rigoureux.

C'est une étape majeure pour rendre le droit plus accessible et plus efficace en Inde, et peut-être ailleurs dans le monde !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération automatisée de documents juridiques privés (contrats, mandats, accords) en Inde reste un domaine sous-exploité, malgré les avancées des grands modèles de langage (LLM) dans d'autres tâches juridiques (prédiction de jugements, résumé).

Les principaux défis identifiés sont :

Pénurie de données : La confidentialité des documents juridiques privés limite la disponibilité de jeux de données publics pour l'entraînement.
Complexité de la génération : Les documents juridiques longs nécessitent une structure rigide, une cohérence logique et une précision factuelle absolue, ce que les LLM génériques peinent à maintenir sur de longs textes.
Obsolescence rapide des modèles : Les méthodes basées sur le Supervised Fine-Tuning (SFT) spécifique à une tâche deviennent rapidement obsolètes face à l'émergence rapide de nouveaux modèles, et sont coûteuses à réentraîner pour les utilisateurs aux ressources limitées.
Besoin d'approche agnostique : Il existe un besoin urgent de méthodes qui fonctionnent indépendamment du modèle de base (open-source ou fermé) sans nécessiter de modifications architecturales lourdes.

2. Contributions Clés

L'article présente quatre contributions majeures :

VidhikDastaavej (Jeu de données) :
- Un ensemble de données à grande échelle, anonymisé, contenant 11 825 documents juridiques privés indiens.
- Couvrant 133 catégories distinctes (ex: accords de licence, options d'actions, contrats de cession, etc.).
- C'est la première ressource de ce type en Inde, conçue pour l'entraînement et l'évaluation de la génération de texte juridique structuré.
- Les données ont été dé-identifiées via une procédure de masquage d'entités nommées (NER) basée sur spaCy, complétée par une vérification humaine.
Wrapper Agnostique de Modèle (MAW) :
- Un cadre de génération en deux étapes indépendant du modèle sous-jacent.
- Phase 1 (Planification) : Génération des titres de sections basés sur les instructions de l'utilisateur, avec possibilité d'édition humaine.
- Phase 2 (Génération itérative) : Génération du contenu section par section. Le système utilise une base de données vectorielle (ChromaDB) pour stocker les résumés des sections précédentes et les récupérer (RAG - Retrieval-Augmented Generation) pour maintenir la cohérence globale et réduire les hallucinations.
Évaluation par des Experts :
- Introduction d'une métrique d'évaluation humaine rigoureuse par des juristes, notant la précision factuelle et l'exhaustivité sur une échelle de Likert (1-10).
- Calcul de la fiabilité inter-annotateurs (Fleiss' κ, ICC, Krippendorff's α) pour valider la robustesse des jugements.
Système Human-in-the-Loop (HITL) :
- Développement d'une interface interactive permettant aux utilisateurs de définir le type de document, de personnaliser les sections et de générer des ébauches structurées.

3. Méthodologie

A. Traitement des Données (VidhikDastaavej)

Collecte : Collaboration avec un cabinet d'avocats indien pour obtenir des documents réels.
Anonymisation : Utilisation de spaCy pour détecter et remplacer les entités (PERSON, ORG, LOC, DATE) par des placeholders (ex: [PERSON]). Une vérification manuelle a confirmé l'efficacité du processus.
Annotation : Les experts ont validé la catégorisation (133 classes) et la structure des sections (en-têtes, clauses).

B. Architecture du Wrapper (MAW)

Le flux de travail se déroule comme suit :

Entrée : L'utilisateur fournit un titre et une description du document.
Planification : Le modèle LLM génère une liste structurée de titres de sections. L'utilisateur peut modifier cette structure.
Génération Séquentielle : Pour chaque section :
- Le modèle reçoit le contexte global + le titre de la section actuelle.
- Il génère le contenu et un résumé concis.
- Le résumé est stocké dans une base vectorielle.
- Pour les sections suivantes, les résumés pertinents sont récupérés et injectés dans le contexte du modèle pour assurer la cohérence.
Sortie : Un document final structuré et cohérent.

C. Configuration Expérimentale

Modèles testés : Modèles open-source (Qwen3-14B, LLaMA-3.1-8B, Gemma-3-12B) avec et sans Supervised Fine-Tuning (SFT), comparés à GPT-4o (propriétaire).
Entraînement SFT : Réalisé sur 4 GPU NVIDIA H200 avec une précision mixte (fp16) et un taux d'apprentissage de $1 \times 10^{-4}$ .
Métriques d'évaluation :
- Lexicales : ROUGE-L, BLEU, METEOR.
- Sémantiques : BERTScore, BLANC.
- Automatiques (LLM) : G-Eval (basé sur GPT-4) pour la factualité et la cohérence.
- Humaines : Notation par 3 experts juridiques sur la précision factuelle et l'exhaustivité.

4. Résultats et Analyse

Les résultats, présentés dans le tableau 5 du papier, montrent des conclusions surprenantes et significatives :

Échec du SFT pur : Le Supervised Fine-Tuning direct sur les modèles open-source a souvent dégradé les performances par rapport aux modèles de base non entraînés. Cela est attribué au surajustement (overfitting) sur des catégories dominantes et à l'incapacité de généraliser aux documents rares ou complexes.
Supériorité du Wrapper (MAW) : L'approche par wrapper a considérablement surpassé les modèles SFT et même le modèle de base non ajusté.
- Exemple : Gemma-3-12B-It a obtenu un score d'exactitude factuelle de 1,00 après SFT, mais 8,82 avec le wrapper.
- Le wrapper a permis aux modèles open-source d'atteindre des scores comparables, voire supérieurs, à GPT-4o (8,82 vs 8,80 pour la précision factuelle).
Réduction des Hallucinations : L'approche structurée et l'ajout de contexte par récupération (RAG) ont drastiquement réduit les erreurs factuelles (ex: invention de clauses, changement de type de contrat) observées dans les modèles SFT.
Cohérence des Évaluations : Les configurations avec wrapper ont obtenu des scores d'accord inter-annotateurs (IAA) très élevés (Fleiss' κ > 0,80), indiquant que les documents générés étaient plus faciles à évaluer de manière cohérente par les experts.

5. Signification et Conclusion

Ce travail établit une nouvelle référence pour l'IA juridique en Inde et au-delà :

Preuve de concept pour l'approche agnostique : Il démontre que pour des tâches de génération de texte long et structuré (comme le droit), une méthodologie de prompting avancée (planification + récupération) est souvent plus efficace et plus robuste que le simple fine-tuning, surtout dans des contextes de données limitées ou déséquilibrées.
Ressource de données critique : VidhikDastaavej comble le vide des données privées juridiques en Inde, permettant des recherches futures reproductibles.
Viabilité pratique : Le système HITL proposé offre une voie réaliste pour l'intégration de l'IA dans les cabinets d'avocats, où l'humain reste le garant final de la validité juridique, tout en automatisant la structure et le brouillon.

En résumé, l'article suggère que l'avenir de la rédaction juridique assistée par l'IA ne réside pas uniquement dans des modèles plus gros ou plus entraînés, mais dans des architectures de génération structurée capables de s'adapter à n'importe quel modèle de base tout en garantissant la précision factuelle et la conformité légale.