Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una biblioteca gigantesca piena di documenti antichi, scritti a macchina, scansionati con una qualità pessima e spesso stampati su due colonne che si mescolano tra loro. È come cercare di leggere una ricetta scritta da un nonno su un foglio strappato, dove le parole sono saltate, le righe sono spezzate e c'è anche una traduzione in francese che si intreccia con l'inglese.

Questo è esattamente il problema che Hussein Ghaly affronta nel suo articolo: come pulire e organizzare le Risoluzioni del Consiglio di Sicurezza delle Nazioni Unite, documenti cruciali che vanno dal 1946 a oggi.

Ecco come funziona il suo metodo, spiegato con parole semplici e qualche metafora creativa:

1. Il Problema: Il "Rumore" nei Dati

I vecchi documenti ONU sono un disastro per i computer. Sono pieni di errori di scansione (OCR), come se qualcuno avesse letto un testo al computer ma avesse sbagliato a digitare "l" invece di "1" o "o" invece di "0". Inoltre, la formattazione a due colonne fa sì che il computer legga una riga di inglese e subito dopo una riga di francese, creando un caos incomprensibile.

2. La Soluzione: Un "Squadra di Editori" Intelligente

Invece di affidarsi a un solo computer per fare il lavoro sporco, l'autore usa una squadra di Intelligenze Artificiali (LLM) diverse, come se fossero un gruppo di editor umani con stili diversi.

Il compito: Chiedono a questi "editori" (modelli come GPT-4.1, GPT-5, ecc.) di fare due cose:
1. Pulire il testo: Rimuovere gli errori, unire le colonne e sistemare la punteggiatura.
2. Etichettare il testo: Mettere dei "post-it" digitali (tag) su parole importanti come Luogo, Organizzazione, Data o Evento, senza però cancellare o cambiare una sola parola del testo originale.

3. La Magia: Non fidarsi ciecamente, ma misurare tutto

Qui sta il trucco geniale. Sappiamo che le Intelligenze Artificiali sono un po' "capricciose": se gli chiedi la stessa cosa due volte, potrebbero darti due risposte leggermente diverse.
L'autore non sceglie la prima risposta che arriva. Invece, fa correre ogni documento attraverso più modelli e più volte, e poi usa due "regoli" speciali per scegliere il vincitore:

Il Regolo della Fedeltà (CPR - Content Preservation Ratio): Immagina di copiare un quadro. Questo regolo misura quanto il copia-incolla è identico all'originale. Se l'IA ha aggiunto parole di suo pugno o ne ha cancellate, il punteggio scende. Vogliamo che l'IA sia un fotocopiatore perfetto, non un artista che modifica il quadro.
Il Regolo della Struttura (TWF - Tag Well-Formedness): Questo controlla se i "post-it" (i tag) sono messi bene. È come controllare se ogni parentesi aperta ( ha la sua parentesi chiusa ). Se l'IA dimentica di chiudere un tag, il documento è "rotto" e questo regolo lo nota subito.

4. La Strategia Economica: Il "Piccolo Genio" vs il "Gigante"

L'autore ha scoperto una cosa molto importante per il portafoglio:

I modelli "giganti" e più potenti (come GPT-4.1) fanno un lavoro eccellente, quasi perfetto.
Ma i modelli "mini" (più piccoli e veloci) fanno un lavoro quasi uguale, ma costano solo il 20%!

È come se avessi bisogno di un architetto per disegnare una casa. Potresti pagare un architetto superstar (costoso), oppure potresti pagare un giovane architetto molto bravo che fa lo stesso lavoro spendendo un quinto. Nel caso dei documenti ONU, il "giovane architetto" (GPT-4.1-mini) è stato così bravo che l'autore ha potuto risparmiare tantissimo senza perdere qualità.

5. Il Risultato: Un Tesoro Organizzato

Alla fine, questo sistema crea un archivio digitale dove ogni documento ONU è:

Pulito: Niente più errori di scansione.
Organizzato: Ogni parola importante è etichettata.
Leggibile dalle macchine: I computer possono ora "capire" che quando si parla di "Consiglio di Sicurezza", è un'organizzazione, e quando si parla di "1946", è una data.

Questo permette di costruire Mappe della Conoscenza (Knowledge Graphs): reti digitali che collegano persone, eventi e luoghi, rendendo la storia delle Nazioni Unite facilmente ricercabile e comprensibile per chiunque, uomo o macchina.

In Sintesi

L'articolo ci dice che non serve il computer più potente e costoso per fare tutto. Usando una squadra di intelligenze artificiali e dei regoli di controllo molto precisi, possiamo pulire e organizzare documenti storici complessi in modo economico, veloce e affidabile, trasformando un mucchio di vecchi fogli polverosi in un database intelligente e utile per il futuro.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions" di Hussein Ghaly, redatto in italiano.

1. Il Problema

Il documento affronta la sfida di eseguire l'etichettatura semantica (semantic tagging) su risoluzioni del Consiglio di Sicurezza delle Nazioni Unite (UNSC) che coprono un arco temporale dal 1946 al 2025. Le principali difficoltà derivano dalla natura dei dati:

Qualità del testo: Molti documenti storici sono stati scritti a macchina, scansionati e sottoposti a OCR, introducendo errori tipografici.
Formato complesso: Fino agli anni '80, i documenti erano spesso impaginati in due colonne, dove la seconda colonna conteneva la traduzione in francese del testo inglese della prima. Questo formato rende difficile l'elaborazione con strumenti NLP tradizionali, poiché una singola riga di file può contenere frammenti di testo non correlati.
Limitazioni degli LLM: Sebbene i Large Language Models (LLM) offrano capacità zero-shot per l'estrazione di entità, soffrono di variabilità stocastica (l'output cambia anche con lo stesso input) e tendono all'illucinazione (aggiunta di testo non richiesto) o all'omissione di parti del testo originale. Inoltre, manca una metodologia standardizzata per misurare la qualità dell'output in modo oggettivo.

2. Metodologia

L'autore propone una metodologia basata su un sistema ensemble che utilizza più modelli LLM e metriche di valutazione rigorose per selezionare l'output ottimale. Il processo si divide in due fasi sequenziali:

A. Pulizia del Testo (Cleaning)

Prima dell'etichettatura, il testo grezzo deve essere normalizzato.

Prompt: Istruzione specifica per convertire il testo da due colonne a una, correggere gli errori OCR, rimuovere i trattini di a capo e separare il testo inglese da quello francese.
Esecuzione: Vengono eseguiti più run (2 per modello) su un set di 7 modelli LLM (tra cui GPT-4.1, GPT-4.1-mini, GPT-5, ecc.) con una temperatura di 1 per generare variabilità.
Selezione: Per ogni documento, viene selezionato l'output con il miglior punteggio di Content Preservation Ratio (CPR).

B. Etichettatura Semantica (Semantic Tagging)

Sul testo pulito vengono applicati tag XML per identificare entità specifiche.

Tag target: <location>, <entity>, <event>, <organization>, <date>.
Vincolo: Il testo originale deve essere preservato integralmente senza aggiunte o omissioni, inserendo solo i tag.
Selezione: L'output migliore viene scelto basandosi su una gerarchia di metriche: prima il CPR, poi la Tag Well-Formedness (TWF) e infine il numero di tag trovati.

C. Metriche di Valutazione

Per garantire affidabilità e prevenire allucinazioni, vengono introdotte due metriche chiave:

Content Preservation Ratio (CPR): Misura la fedeltà del testo. Calcola la frequenza dei bigrammi (coppie di caratteri) nel testo di input rispetto all'output.
- Formula: $CPR = \frac{\sum b \cdot c_{in}(b)}{\sum b \cdot c_{in}(b) - \sum b |c_{in}(b) - c_{out}(b)|}$
- Un valore alto indica che non ci sono omissioni o aggiunte non necessarie.
Tag Well-Formedness (TWF): Verifica la correttezza sintattica dei tag XML. Assicura che ogni tag di apertura abbia un corrispondente tag di chiusura e che non vi siano tag non chiusi o nidificati errati.
- Formula: $TWF = \frac{N_{pairs}}{N_{pairs} + N_{malformed}}$

3. Contributi Chiave

Pipeline LLM Scalabile: Un approccio pratico per pulire e etichettare semanticamente un corpus storico complesso (risoluzioni UNSC).
Nuove Metriche: Introduzione di CPR e TWF per valutare quantitativamente la qualità della trasformazione dei documenti, superando la soggettività delle valutazioni umane.
Analisi Costo-Efficacia: Confronto empirico tra modelli di diverse dimensioni (full, mini, nano) per identificare il miglior compromesso tra accuratezza e costo.
Corpus Annotato: Creazione di un corpus di risoluzioni semanticamente annotate, pronto per la costruzione di Knowledge Graph.

4. Risultati

L'esperimento è stato condotto su un campione di 10 documenti storici.

Pulizia del Testo:
- Il modello GPT-4.1 ha ottenuto il miglior CPR (84,9%) con un costo di $0,0139 per documento.
- Il modello GPT-4.1-mini ha raggiunto prestazioni comparabili (CPR 83,5%) con un costo drasticamente inferiore ($0,0028), pari al 20% del costo del modello migliore.
Etichettatura Semantica:
- GPT-4.1 e GPT-5.1 hanno mostrato le prestazioni migliori in termini di CPR (~~99,99%), TWF (~~99,92%) e numero di tag identificati.
- Anche qui, GPT-4.1-mini ha dimostrato un'efficienza notevole: CPR 99,92% e TWF 99,64% a un costo di $0,0033 (circa il 19% del costo di GPT-4.1), pur identificando leggermente meno tag.
Conclusioni sui Modelli: I modelli "mini" offrono un rapporto costo-prestazioni eccellente, rendendo fattibili progetti su larga scala che altrimenti sarebbero proibitivi economicamente.

5. Significato e Impatto

Questo lavoro dimostra che è possibile costruire sistemi LLM affidabili per compiti di estrazione di informazioni su testi storici e "rumorosi" attraverso un approccio di ensemble e metriche rigorose.

Knowledge Graph: Il corpus risultante, strutturato in XML (compatibile con standard come Akoma Ntoso), abilita la costruzione di Knowledge Graph dettagliati per le Nazioni Unite, collegando entità, mandati ed eventi.
Efficienza Economica: La metodologia permette di identificare modelli più piccoli ed economici che mantengono prestazioni elevate, offrendo risparmi commerciali significativi per progetti di "Big Data" e ingegneria dei dati.
Trasparenza: L'approccio proposto rende l'uso degli LLM più controllabile, misurabile e prevedibile, riducendo il rischio di allucinazioni e facilitando l'integrazione umana nei flussi di lavoro automatizzati.

In sintesi, il paper fornisce una prova di concetto solida per l'uso di ensemble di LLM guidati da metriche quantitative per trasformare archivi storici non strutturati in dati strutturati e machine-readable.