Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Each language version is independently generated for its own context, not a direct translation.

🧐 Le Problème : L'Avalanche de Documents

Imaginez que vous travaillez dans une grande entreprise (banque, hôpital, assurance). Vous devez vérifier des milliers de contrats pour vous assurer qu'ils respectent des règles strictes (comme la protection des données médicales ou la sécurité bancaire).

Actuellement, c'est comme si on vous donnait une montagne de livres et qu'on vous demandait de trouver, à la main, les pages précises qui respectent une règle donnée. C'est long, épuisant et risqué.

Les entreprises essaient d'utiliser des intelligences artificielles (comme des chatbots avancés) pour aider. Mais ces IA ont un gros défaut : elles sont imprévisibles. Parfois, elles donnent une réponse, parfois une autre, et on ne sait pas pourquoi. Pour un avocat ou un auditeur, c'est inacceptable : on ne peut pas dire à un juge "l'ordinateur a deviné". Il faut des preuves solides et reproductibles.

🛠️ La Solution : Le "Filtre à Double Triage"

Les auteurs de ce papier proposent une solution plus simple, plus transparente et surtout déterministe (c'est-à-dire que si vous donnez le même document deux fois, vous obtiendrez exactement la même réponse).

Imaginez leur système comme un filtre de sécurité à trois niveaux dans un aéroport, mais pour les contrats :

Le Moteur de Recherche (Le Douanier) :
Au lieu d'un robot qui parle, ils utilisent un "double encodeur" (une sorte de cerveau mathématique simple basé sur RoBERTa).
- L'analogie : C'est comme un détecteur de métaux très précis. Il ne vous dit pas "c'est dangereux", il vous donne un score de risque (de 0 à 100). Plus le score est élevé, plus le contrat ressemble à ce qu'on cherche.
Les Trois Zones de Décision (Le Filtre Flou) :
Au lieu de dire juste "Oui" ou "Non", le système divise les documents en trois zones, comme un thermostat :
- 🟢 Zone Verte (Auto-Vert) : Le score est très bas (ou très haut selon le cas). Le contrat est clairement conforme. Le système dit : "C'est bon, on valide tout de suite."
- 🔴 Zone Rouge (Auto-Rouge) : Le score est clairement mauvais. Le système dit : "C'est interdit, on rejette."
- 🟡 Zone Jaune (À Vérifier) : Le score est "moyen" ou ambigu. Le système dit : "Je ne suis pas sûr, je ne vais pas prendre de risque. Passez voir un humain."
La Règle d'Or (La Sécurité) :
Le système est réglé pour que la "Zone Jaune" ne contienne que les cas les plus difficiles. L'objectif est que le système prenne des décisions automatiques sur 98% des cas, tout en garantissant qu'il ne se trompe que très rarement (moins de 2% d'erreur) sur ces décisions automatiques.

🎯 Pourquoi c'est mieux qu'un Chatbot ?

Les auteurs comparent leur système à un chef cuisinier vs un robot qui improvise.

Le Chatbot (LLM) : C'est comme un chef qui cuisine avec des épices secrètes. Il fait un bon plat aujourd'hui, mais demain, avec les mêmes ingrédients, il pourrait faire quelque chose de différent. De plus, on ne peut pas voir ses notes de cuisine. C'est trop risqué pour la loi.
Le Système de ce Papier : C'est comme une recette de cuisine exacte.
- On utilise les mêmes ingrédients (les documents).
- On suit la même recette (le code).
- On obtient toujours le même résultat.
- Si un inspecteur (l'auditeur) veut vérifier, il peut relire la recette, refaire le calcul, et obtenir le même résultat. C'est transparent et vérifiable.

📊 Les Résultats en Bref

Efficacité : Le système est très bon pour trouver les bons documents dans la montagne de papiers (comme retrouver une aiguille dans une botte de foin).
Précision : Il réussit à repérer presque tous les contrats à risque (même s'ils sont rares, comme 1 sur 200).
Confiance : Parce qu'il est simple et reproductible, les avocats et les régulateurs peuvent lui faire confiance pour automatiser le travail ennuyeux, tout en gardant un œil humain sur les cas compliqués.

💡 En Résumé

Ce papier dit : "Arrêtons d'essayer de créer des IA magiques et imprévisibles pour la loi. Utilisons plutôt des outils simples, transparents et prévisibles qui savent exactement quand dire 'Oui', 'Non' et 'Je ne sais pas, vérifiez ça'."

C'est une approche pragmatique : l'humain reste le chef, mais l'IA fait tout le travail de tri fastidieux.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les équipes juridiques et de conformité (GRC) sont confrontées à la nécessité de trier et d'analyser des volumes massifs de preuves contractuelles (contrats, emails, politiques) pour s'assurer du respect de cadres réglementaires stricts tels que HIPAA ou NERC-CIP.

Les défis majeurs identifiés sont :

Opacité des modèles actuels : Les grands modèles de langage (LLM) utilisés comme "copilotes" sont souvent non déterministes (en raison de l'échantillonnage), difficiles à auditer et sujets aux hallucinations.
Manque de traçabilité : Les régulateurs exigent que les décisions soient traçables jusqu'à des clauses spécifiques, avec une justification explicite.
Déséquilibre des classes extrême : Dans la plupart des règles de conformité, seules une infime fraction des clauses (environ 0,6 %) sont réellement pertinentes ou non conformes.
Absence de mécanisme de triage : Les classificateurs binaires standards ne permettent pas de distinguer les cas "évidents" (automatisables) des cas "ambigus" (nécessitant une revue humaine), forçant les utilisateurs à faire confiance aveuglément ou à ignorer le modèle.

L'objectif est de concevoir un système déterministe, reproductible et interprétable qui remplace les approches "boîte noire" par un flux de travail de triage structuré.

2. Méthodologie

L'auteur propose une architecture basée sur un encodeur dual déterministe couplé à une tête de triage flou (fuzzy triage).

A. Architecture du Modèle

Backbone : Utilisation d'un encodeur dual basé sur RoBERTa-base.
- Les requêtes (règles de contrôle) et les clauses (textes contractuels) sont encodés séparément.
- Les représentations sont projetées dans un espace vectoriel de 512 dimensions.
- Le score de similarité est calculé via la similarité cosinus.
Entraînement en deux étapes :
1. Apprentissage de classement (Ranking) : Entraînement sur le benchmark ACORD (données d'assurance) avec des étiquettes de pertinence graduelle (de 0 à 4 ou 5). L'objectif est une perte listwise (optimisant le NDCG) pour apprendre à classer les clauses les plus pertinentes en haut.
2. Classification binaire (Compliance) : Affinage sur un jeu de données dérivé de CUAD (Contract Understanding Atticus Dataset) pour une tâche de classification binaire (conforme/non conforme). Une pondération forte des classes positives (positivity-weighting) est utilisée pour gérer le déséquilibre extrême des classes.

B. Triage Flou (Fuzzy Triage)

Au lieu d'un seuil binaire unique, le système introduit une couche de triage flou qui divise l'espace des scores en trois régions :

Auto-non-conforme : Score < $\tau_{low}$ (Rejet automatique).
Revue humaine : $\tau_{low} \le$ Score $\le$ $\tau_{high}$ (Zone d'incertitude).
Auto-conforme : Score > $\tau_{high}$ (Validation automatique).

Les seuils $\tau_{low}$ et $\tau_{high}$ sont optimisés sur un jeu de validation pour maximiser la couverture des décisions automatiques tout en respectant une contrainte stricte sur le taux d'erreur dans la zone automatique (fixé à au maximum 2 %).

C. Déterminisme et Reproductibilité

Contrairement aux LLM génératifs, ce pipeline est entièrement déterministe :

Graines aléatoires fixes (40–44).
Pas d'échantillonnage stochastique.
Paramètres scalaires explicites (seuils, poids) qui peuvent être audités et figés pour des revues réglementaires.

3. Contributions Clés

Base de référence reproductible : Un encodeur dual simple mais efficace pour la récupération de clauses juridiques, entraîné sur des données publiques (ACORD) et adapté à la conformité (CUAD).
Moteur de triage calibré : Une méthode pour mapper les scores scalaires en régions de décision explicites (Auto/Revue), permettant de gérer le compromis entre automatisation et risque d'erreur.
Alignement réglementaire : Une approche qui répond aux exigences de traçabilité et d'auditabilité (HIPAA, NERC-CIP) en offrant des preuves de décision claires et reproductibles, contrairement aux LLM opaques.
Gestion du déséquilibre des classes : Démonstration qu'un modèle simple peut atteindre une haute sensibilité (recall) sur des tâches de conformité à très faible incidence positive.

4. Résultats Expérimentaux

Les expériences ont été menées sur une seule GPU NVIDIA A100 avec cinq graines aléatoires différentes.

Performance de Récupération (ACORD)

NDCG@5 : 0,38 – 0,42
NDCG@10 : 0,45 – 0,50
Précision 4-étoiles @5 : ~0,37
Interprétation : Le modèle identifie efficacement les clauses les plus pertinentes pour une règle donnée, surpassant les baselines aléatoires et majoritaires.

Performance de Classification (CUAD)

AUC : 0,98 – 0,99 (excellente capacité de discrimination).
F1-Score : 0,22 – 0,30 (variable selon le poids de la classe positive).
Recall (Sensibilité) : Jusqu'à 0,98 avec un poids de classe positive élevé ( $w=200$ ).
Note : Bien que la précision soit plus faible dans le régime de haute sensibilité, cela est intentionnel pour un scénario de "détecteur" où il est plus coûteux de manquer une clause non conforme que de la surligner.

Efficacité du Triage Flou

Couverture automatique : Le système prend des décisions automatiques pour 96 % à 98 % des clauses.
Taux d'erreur en zone automatique : Maintenu en dessous de 2 % (ex: 1,15 % pour le modèle non pondéré, ~3 % pour le modèle très pondéré).
Impact opérationnel : Cela permet de réduire considérablement la charge de travail humaine en ne réservant la revue manuelle qu'aux cas marginaux et ambigus.

5. Signification et Implications

Ce travail propose un compromis pragmatique entre les règles manuelles rigides et les LLM génératifs opaques :

Défensibilité juridique : La nature déterministe du modèle permet aux régulateurs et aux experts d'opposants de rejouer le pipeline exactement de la même manière pour vérifier les décisions, ce qui est impossible avec des LLM stochastiques.
Alignement avec les cadres de contrôle : La structure de triage à trois états (Auto/Revue/Rejet) correspond directement aux concepts de gestion du risque résiduel et de contrôle d'accès requis par des normes comme HIPAA §164.312.
Auditabilité : Le système expose un petit nombre de paramètres scalaires (seuils, scores) au lieu d'activations latentes complexes, facilitant l'analyse de l'équité et des biais.
Efficacité des ressources : Le modèle fonctionne efficacement sur un seul GPU, rendant la solution accessible aux organisations qui ne peuvent pas se permettre des infrastructures massives ou des modèles sur-mesure.

Conclusion : L'article démontre que des modèles simples, déterministes et calibrés avec des mécanismes de triage explicites offrent une solution supérieure pour les flux de travail de conformité légale où la traçabilité, la reproductibilité et la gestion du risque sont prioritaires par rapport à la génération de texte créatif.