A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Il paper propone un'architettura a due stadi che utilizza LLaMA-3.1-8B-Instruct per la segmentazione e un Legal-Roberta-Large fine-tuned per la classificazione delle clausole nei contratti di non divulgazione, ottenendo risultati elevati in termini di precisione e automazione.

Ana Begnini, Matheus Vicente, Leonardo Souza

Pubblicato 2026-03-12
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover leggere e analizzare centinaia di contratti legali, chiamati NDA (Accordi di Non Divulgazione). Sono quei documenti che le aziende firmano per promettere di non rivelare i propri segreti. Il problema? Ogni azienda scrive questi contratti in modo diverso: alcuni sono lunghi, altri corti, alcuni hanno tabelle, altri elenchi puntati, e il linguaggio è spesso complicato e pieno di "legalese".

Fare questo lavoro a mano per un team legale è come cercare di trovare un ago in un pagliaio, solo che il pagliaio è fatto di carta e l'ago è una clausola importante. È lento, noioso e facile commettere errori.

Gli autori di questo studio hanno creato un sistema intelligente a due stadi (come una catena di montaggio) per automatizzare questo processo. Ecco come funziona, spiegato con parole semplici:

1. Il Primo Stadio: Il "Tagliapasta" Intelligente (Segmentazione)

Immagina che il contratto sia una torta gigante e molto disordinata. Il primo compito è tagliarla in fette perfette (le singole clausole), anche se la torta ha una forma strana.

  • Chi lo fa? Un "cervello" gigante chiamato LLaMA (un modello di intelligenza artificiale molto potente).
  • Come funziona? L'LLM legge tutto il documento e dice: "Ok, qui inizia la parte sulla riservatezza, qui finisce, e qui inizia la parte sui danni".
  • Il trucco: Per farlo velocemente e senza impazzire, usano una tecnologia speciale chiamata vLLM, che è come un motore turbo per l'IA, permettendole di leggere documenti lunghissimi senza bloccarsi.
  • Il risultato: Il sistema è stato bravissimo a tagliare la torta. Ha mantenuto il 95% del contenuto originale, senza perdere pezzi importanti o confondere le parti. È come se avesse un coltello laser che taglia esattamente dove deve, ignorando il disordine del tavolo.

2. Il Secondo Stadio: L'Etichettatore Esperto (Classificazione)

Ora che abbiamo le fette di torta (le clausole), dobbiamo sapere cosa sono. È una fetta di "riservatezza"? Di "durata del contratto"? O di "proprietà intellettuale"?

  • Chi lo fa? Un esperto specializzato chiamato Legal-Roberta. È un'IA più piccola ma molto specifica, addestrata solo su testi legali.
  • La sfida: Alcune fette possono avere più etichette (es. una clausola parla sia di "durata" che di "riservatezza"). Inoltre, alcune etichette sono molto comuni (come la "durata"), mentre altre sono rarissime (come i "diritti di concorrenza"). È come cercare di indovinare il sapore di un gelato: il gusto "vaniglia" è facile, ma il gusto "gusto di formaggio" (che esiste raramente) è difficile da riconoscere.
  • Il risultato: L'IA ha imparato bene i gusti comuni (ottimo punteggio per le clausole frequenti). Per i gusti rari ha fatto un po' più di fatica, ma nel complesso ha etichettato correttamente l'85% delle cose. È come un assistente legale che, dopo un po' di allenamento, ti dice quasi sempre: "Attenzione, questa clausola parla di responsabilità per danni!".

Perché è importante?

Prima, gli avvocati dovevano leggere tutto a mano, rischiando di stancarsi e perdere dettagli. Ora, questo sistema fa il lavoro sporco in due passaggi:

  1. Separa il testo in pezzi gestibili.
  2. Classifica ogni pezzo per dirti di cosa parla.

Cosa manca ancora?

Il sistema è ottimo, ma ha un limite: i dati. Trovare contratti NDA da usare per l'addestramento è difficile perché sono segreti. È come cercare di insegnare a un cuoco a fare piatti esotici senza avere gli ingredienti giusti. Questo rende difficile insegnare all'IA le clausole più rare.

Il futuro?
Gli autori vogliono migliorare il sistema per renderlo un vero "assistente legale". Invece di limitarsi a leggere e classificare, il sistema futuro potrà anche:

  • Suggerire modifiche alle clausole.
  • Trovare errori o incongruenze.
  • Agire come un "controllore di qualità" automatico per i contratti.

In sintesi, hanno creato un robot che legge, taglia e etichetta i contratti legali, liberando gli avvocati umani dal lavoro ripetitivo per concentrarsi sulle decisioni importanti. È un po' come avere un assistente che fa il riassunto di un libro di 500 pagine in pochi secondi, evidenziando solo le parti che ti interessano.