Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover risolvere un enigma complesso, ma invece di avere un unico libro di indizi, devi consultare una biblioteca infinita di leggi che sono tutte collegate tra loro come rami di un albero.

Questo studio, chiamato SEARCHFIRESAFETY, è nato per capire se le Intelligenze Artificiali (come ChatGPT) sono davvero pronte a diventare "avvocati digitali" o "consulenti di sicurezza" quando si tratta di regole scritte (leggi statutarie), e non solo di casi giudiziari passati.

Ecco i punti chiave, spiegati con delle metafore:

1. Il Problema: Il "Buco" tra la Domanda e la Risposta

Nella maggior parte dei test legali, l'AI deve trovare un caso simile a quello che le hai proposto (come cercare un libro che parla della stessa storia). Ma nel mondo delle regolamentazioni (come le leggi antincendio), funziona diversamente.

L'analogia: Immagina che tu chieda all'AI: "Posso mettere una ringhiera mobile in questa scuola?".
La realtà: L'AI non trova la risposta nella domanda stessa. Deve saltare da un documento all'altro:
1. Legge principale (Livello alto): "Le uscite devono essere sicure".
2. Decreto (Livello medio): "Le uscite sono definite come aperture".
3. Regola tecnica (Livello basso, nascosto): "Un'apertura è sicura se è alta almeno 1,2 metri".
Il "Buco Statutario": Le parole che usi nella domanda (es. "ringhiera mobile") sono molto diverse dalle parole tecniche della legge (es. "altezza dal pavimento"). Le AI tradizionali si perdono perché cercano parole simili, non perché capiscono la struttura che collega questi documenti. È come cercare di trovare un indirizzo guardando solo il nome del quartiere, senza guardare la mappa delle strade.

2. La Soluzione: La Mappa dei Collegamenti (Grafo)

Gli autori hanno creato un nuovo sistema di ricerca che non cerca solo parole chiave, ma segue i collegamenti.

L'analogia: Immagina che i documenti legali siano isole. Le AI normali provano a nuotare da un'isola all'altra cercando di indovinare quale sia vicina (basandosi sulla somiglianza delle parole).
Il nuovo metodo (SEARCHFIRESAFETY): Costruisce un ponte di corda (un grafo di citazioni) che collega fisicamente l'isola della domanda all'isola della risposta. Se la Legge A cita il Decreto B, e il Decreto B cita la Regola C, l'AI segue il ponte.
Risultato: È come avere un'autostrada diretta invece di dover attraversare un bosco a piedi. L'AI riesce a trovare la risposta corretta anche se le parole sono completamente diverse.

3. Il Test di Sicurezza: "Quando non rispondere"

Questa è la parte più importante e affascinante. Nel mondo legale, specialmente per la sicurezza antincendio, rispondere male è pericoloso.

L'analogia: Immagina un medico AI. Se un paziente descrive sintomi vaghi, il medico deve dire: "Non ho abbastanza informazioni per fare una diagnosi, vai dal dottore". Se invece l'AI inventa una cura basata su ciò che "pensa" di sapere, il paziente potrebbe farsi male.
Il test: Gli autori hanno creato domande dove manca un pezzo cruciale del documento.
- Domanda: "Qual è la misura esatta?"
- Contesto: Manca il foglio con la misura.
- Risposta sicura: "Non posso dirlo, mancano i dati".
- Risposta pericolosa (Allucinazione): L'AI inventa un numero plausibile perché "sembra giusto".

La scoperta shock: Hanno scoperto che più si "addestra" un'AI su molte leggi (per farla diventare un esperto), più diventa arrogante. Quando le manca un pezzo di informazione, invece di dire "non lo so", tende a inventare una risposta con una sicurezza spaventosa. È come un attore che recita così bene da convincere tutti di essere il personaggio, anche quando non sa la battuta.

4. Cosa hanno scoperto?

La struttura è tutto: Se l'AI usa la "mappa dei collegamenti" (i ponti tra le leggi), trova le risposte molto meglio di prima.
L'addestramento ha un rovescio della medaglia: Le AI specializzate nelle leggi sono bravissime quando hanno tutti i documenti, ma diventano pericolose quando i documenti sono incompleti. Tendono a inventare risposte invece di ammettere il dubbio.
Il futuro: Non basta che l'AI sia intelligente. Deve anche essere umile. Deve sapere quando fermarsi e dire: "Mi mancano i pezzi del puzzle, non posso rispondere".

In sintesi

Questo studio ci dice che per costruire un'AI legale sicura (specialmente per cose vitali come la sicurezza antincendio), non dobbiamo solo insegnarle a leggere le leggi, ma dobbiamo darle una mappa dei collegamenti tra i documenti e, soprattutto, insegnarle a riconoscere quando non sa la risposta, invece di inventarla.

È un passo fondamentale per evitare che un computer ci dica di costruire un edificio sicuro quando, in realtà, le regole mancanti lo renderebbero pericoloso.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il "Divario di Recupero Statutario"

La maggior parte dei benchmark attuali per l'Intelligenza Artificiale Legale si concentra sul diritto consuetudinario (Common Law) e sul recupero di casi giurisprudenziali, trattando i documenti come unità indipendenti e statiche. Tuttavia, questo approccio fallisce nei domini basati su statuti e regolamenti (tipici dei sistemi di diritto civile), come le normative sulla sicurezza antincendio.

Le sfide principali identificate sono:

Natura Gerarchica e Frammentata: Le prove necessarie per rispondere a una domanda legale sono spesso distribuite su più livelli di documenti interconnessi (Atto $\rightarrow$ Decreto di Esecuzione $\rightarrow$ Regola di Esecuzione $\rightarrow$ Standard Tecnico).
Divario di Recupero Statutario (Statutory Retrieval Gap): Esiste una forte disconnessione lessicale e semantica tra la query dell'utente (spesso colloquiale o basata su un articolo generale) e il documento tecnico specifico che contiene la risposta. I recuperatori densi convenzionali falliscono perché non riescono a navigare le catene di citazioni che collegano questi documenti, portando spesso a allucinazioni quando il contesto è incompleto.
Sicurezza e Rifiuto: In contesti critici per la sicurezza fisica (come la sicurezza antincendio), un modello non deve solo trovare la risposta, ma deve anche essere in grado di astenersi (rifiutarsi di rispondere) se il contesto normativo fornito è insufficiente, evitando di generare risposte confidenziali ma non supportate.

2. Metodologia: SEARCHFIRESAFETY

Gli autori introducono SEARCHFIRESAFETY, un benchmark strutturato e sicuro focalizzato sulle normative sulla sicurezza antincendio in Corea del Sud. La metodologia si articola in tre fasi principali:

A. Costruzione del Corpus e Grafo di Citazione

Corpus Sincronizzato: È stato creato un corpus legale aggiornato al 30 aprile 2025, risolvendo le discrepanze temporali causate dalle riforme normative del 2022.
Pipeline Multimodale: È stato implementato un processo "Human-in-the-Loop" per convertire tabelle complesse, formule matematiche e diagrammi tecnici (originariamente in immagini o PDF) in testo strutturato, garantendo l'assenza di perdita di informazioni.
Arricchimento del Grafo: Oltre al testo piatto, è stato costruito un grafo di citazioni esplicite. Questo grafo collega i documenti attraverso riferimenti legali (es. "ai sensi dell'Articolo X"), includendo anche citazioni intra-statuto che spesso mancano di link ipertestuali diretti, creando una rete di dipendenze completa.

B. Costruzione del Dataset Dual-Source

Il benchmark utilizza due tipi di dati per valutare capacità diverse:

QA da Esperti Reali (Focus sul Recupero): 876 coppie domanda-risposta estratte dal portale delle petizioni dell'Agenzia Nazionale Antincendio (NFA). Queste domande richiedono di tracciare catene di citazioni per collegare una query colloquiale a specifici articoli tecnici.
QA Sintetici Multi-hop (Focus sulla Sicurezza): 3.395 domande a scelta multipla generate sinteticamente. Sono progettate con una dipendenza condizionale stretta: la domanda è risolvibile solo se sono presenti entrambi i documenti collegati (A e B). Se viene fornito solo il documento A (contesto parziale), la risposta corretta è "Non determinabile". Questo testa la capacità del modello di astenersi invece di allucinare.

C. Strategie di Recupero e Valutazione

Recupero: Vengono testati recuperatori sparsi (BM25) e densi (Qwen3-Emb, BGE-M3).
Reranking Strutturato (SAR): Viene proposta una nuova strategia di Structure-Aware Reranking. Invece di basarsi solo sulla similarità semantica, SAR utilizza il grafo di citazioni per propagare il punteggio di rilevanza dai documenti "semi" (top-K recuperati) ai loro vicini strutturati, recuperando prove che sono semanticamente distanti ma strutturalmente connesse.
Valutazione della Sicurezza: Vengono testati modelli LLM in tre scenari: Zero-Shot, Full Context (documenti A+B) e Partial Context (solo documento A). La metrica chiave è la capacità di selezionare l'opzione "Non determinabile" quando le prove mancano.

3. Risultati Chiave

Performance di Recupero

I recuperatori densi superano significativamente i metodi basati su parole chiave (BM25), ma soffrono ancora del divario lessicale.
SAR (Structure-Aware Reranking) dimostra un miglioramento sostanziale rispetto alle strategie tradizionali (come RRF o Rocchio). Utilizzando i link espliciti del grafo, SAR recupera documenti "gap" che i recuperatori densi non riescono a trovare, migliorando il Recall@50 e l'nDCG@50 su entrambi i modelli di embedding testati.
La visualizzazione del grafo conferma che i link espliciti creano ponti diretti verso i documenti ground-truth che le vicinanze semantiche (kNN) non riescono a catturare.

Performance di Generazione e Sicurezza

Compromesso Sicurezza-Competenza: I modelli adattati al dominio legale (tramite Continued Pretraining) mostrano una maggiore accuratezza in Zero-Shot e Full Context, ma peggiorano significativamente nello scenario di contesto parziale.
Fallimento nell'Astensione: I modelli open-weight (es. Qwen3, Exaone) tendono a generare risposte confidenti e allucinate anche quando le prove sono incomplete, fallendo nel riconoscere l'incertezza.
GPT-4o mostra una maggiore consapevolezza dell'incertezza, selezionando più frequentemente l'opzione di astensione quando necessario, sebbene nessun modello sia perfetto.
L'addestramento su corpus legali aumenta la fluidità e l'impegno nella risposta, ma riduce la calibrazione dell'incertezza, rendendo i modelli più pericolosi in scenari di sicurezza critica.

4. Contributi Principali

SEARCHFIRESAFETY: Il primo benchmark che valuta congiuntamente il recupero gerarchico e la sicurezza (astensione) nei domini basati su statuti, superando i limiti dei benchmark basati sui casi.
Dataset con Annotazioni del Grafo: Un dataset che include esplicitamente un grafo di citazioni, permettendo la valutazione sistematica del recupero multi-hop e della gestione del contesto parziale.
Analisi Empirica: Dimostrazione che il recupero guidato da grafi è essenziale per colmare il divario di recupero statutario, e rivelazione critica del fatto che l'adattamento al dominio può esacerbare il rischio di allucinazione in assenza di prove complete.

5. Significato e Implicazioni

Questo lavoro evidenzia che il progresso nell'IA legale non può basarsi solo sul miglioramento della precisione del recupero o sulla capacità di ragionamento in contesti ideali. Per i sistemi di regolamentazione ad alta sicurezza (come la sicurezza antincendio, la protezione dei dati o la sanità), è fondamentale sviluppare modelli che:

Siano consapevoli della struttura gerarchica delle leggi.
Possano riconoscere i limiti delle proprie conoscenze e astenersi dal rispondere quando il contesto normativo è frammentario.
Siano valutati non solo sulla loro capacità di "indovinare" la risposta corretta, ma sulla loro capacità di non allucinare quando le prove mancano.

Il paper conclude che i futuri sistemi RAG (Retrieval-Augmented Generation) legali devono integrare meccanismi espliciti per la risoluzione dei conflitti, il grounding terminologico e l'astensione calibrata, spostando l'attenzione dalla semplice accuratezza alla affidabilità operativa in scenari reali.