Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Questo articolo presenta un metodo basato su ensemble di modelli LLM, valutati tramite le nuove metriche CPR e TWF, per eseguire in modo affidabile ed economico la pulizia e l'etichettatura semantica delle risoluzioni del Consiglio di Sicurezza delle Nazioni Unite.

Hussein Ghaly

Pubblicato 2026-03-09
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una biblioteca gigantesca piena di documenti antichi, scritti a macchina, scansionati con una qualità pessima e spesso stampati su due colonne che si mescolano tra loro. È come cercare di leggere una ricetta scritta da un nonno su un foglio strappato, dove le parole sono saltate, le righe sono spezzate e c'è anche una traduzione in francese che si intreccia con l'inglese.

Questo è esattamente il problema che Hussein Ghaly affronta nel suo articolo: come pulire e organizzare le Risoluzioni del Consiglio di Sicurezza delle Nazioni Unite, documenti cruciali che vanno dal 1946 a oggi.

Ecco come funziona il suo metodo, spiegato con parole semplici e qualche metafora creativa:

1. Il Problema: Il "Rumore" nei Dati

I vecchi documenti ONU sono un disastro per i computer. Sono pieni di errori di scansione (OCR), come se qualcuno avesse letto un testo al computer ma avesse sbagliato a digitare "l" invece di "1" o "o" invece di "0". Inoltre, la formattazione a due colonne fa sì che il computer legga una riga di inglese e subito dopo una riga di francese, creando un caos incomprensibile.

2. La Soluzione: Un "Squadra di Editori" Intelligente

Invece di affidarsi a un solo computer per fare il lavoro sporco, l'autore usa una squadra di Intelligenze Artificiali (LLM) diverse, come se fossero un gruppo di editor umani con stili diversi.

  • Il compito: Chiedono a questi "editori" (modelli come GPT-4.1, GPT-5, ecc.) di fare due cose:
    1. Pulire il testo: Rimuovere gli errori, unire le colonne e sistemare la punteggiatura.
    2. Etichettare il testo: Mettere dei "post-it" digitali (tag) su parole importanti come Luogo, Organizzazione, Data o Evento, senza però cancellare o cambiare una sola parola del testo originale.

3. La Magia: Non fidarsi ciecamente, ma misurare tutto

Qui sta il trucco geniale. Sappiamo che le Intelligenze Artificiali sono un po' "capricciose": se gli chiedi la stessa cosa due volte, potrebbero darti due risposte leggermente diverse.
L'autore non sceglie la prima risposta che arriva. Invece, fa correre ogni documento attraverso più modelli e più volte, e poi usa due "regoli" speciali per scegliere il vincitore:

  • Il Regolo della Fedeltà (CPR - Content Preservation Ratio): Immagina di copiare un quadro. Questo regolo misura quanto il copia-incolla è identico all'originale. Se l'IA ha aggiunto parole di suo pugno o ne ha cancellate, il punteggio scende. Vogliamo che l'IA sia un fotocopiatore perfetto, non un artista che modifica il quadro.
  • Il Regolo della Struttura (TWF - Tag Well-Formedness): Questo controlla se i "post-it" (i tag) sono messi bene. È come controllare se ogni parentesi aperta ( ha la sua parentesi chiusa ). Se l'IA dimentica di chiudere un tag, il documento è "rotto" e questo regolo lo nota subito.

4. La Strategia Economica: Il "Piccolo Genio" vs il "Gigante"

L'autore ha scoperto una cosa molto importante per il portafoglio:

  • I modelli "giganti" e più potenti (come GPT-4.1) fanno un lavoro eccellente, quasi perfetto.
  • Ma i modelli "mini" (più piccoli e veloci) fanno un lavoro quasi uguale, ma costano solo il 20%!

È come se avessi bisogno di un architetto per disegnare una casa. Potresti pagare un architetto superstar (costoso), oppure potresti pagare un giovane architetto molto bravo che fa lo stesso lavoro spendendo un quinto. Nel caso dei documenti ONU, il "giovane architetto" (GPT-4.1-mini) è stato così bravo che l'autore ha potuto risparmiare tantissimo senza perdere qualità.

5. Il Risultato: Un Tesoro Organizzato

Alla fine, questo sistema crea un archivio digitale dove ogni documento ONU è:

  1. Pulito: Niente più errori di scansione.
  2. Organizzato: Ogni parola importante è etichettata.
  3. Leggibile dalle macchine: I computer possono ora "capire" che quando si parla di "Consiglio di Sicurezza", è un'organizzazione, e quando si parla di "1946", è una data.

Questo permette di costruire Mappe della Conoscenza (Knowledge Graphs): reti digitali che collegano persone, eventi e luoghi, rendendo la storia delle Nazioni Unite facilmente ricercabile e comprensibile per chiunque, uomo o macchina.

In Sintesi

L'articolo ci dice che non serve il computer più potente e costoso per fare tutto. Usando una squadra di intelligenze artificiali e dei regoli di controllo molto precisi, possiamo pulire e organizzare documenti storici complessi in modo economico, veloce e affidabile, trasformando un mucchio di vecchi fogli polverosi in un database intelligente e utile per il futuro.