Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Een slimme "super-kracht" voor oude UN-documenten

Stel je voor dat je een enorme, oude bibliotheek hebt vol met documenten van de Veiligheidsraad van de Verenigde Naties. Deze documenten gaan terug tot 1946. Het probleem? Ze zijn niet netjes. Sommige zijn getypt op oude typemachines, gescand door computers (waarbij de letters soms verkeerd worden gelezen, zoals een 'l' dat eruitziet als een '1'), en ze staan in een raar tweedelig formaat (links Engels, rechts Frans).

Het is alsof je probeert een verhaal te lezen dat op twee verschillende bladen is geschreven, waarbij de zinnen door elkaar lopen. Voor een computer is dit een nachtmerrie om te begrijpen.

Deze paper beschrijft hoe de auteur, Hussein Ghaly, een slimme oplossing heeft bedacht met behulp van AI (Large Language Models of LLM's) om deze rommel op te ruimen en er betekenis uit te halen.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Geestelijke" AI

AI-modellen (zoals de slimme chatbots die je kent) zijn geweldig, maar ze zijn ook een beetje wispelturig. Stel je voor dat je een chef-kok vraagt om een gerecht te maken. Als je hem één keer vraagt, maakt hij het perfect. Als je hem een tweede keer vraagt, kan hij iets anders doen, omdat hij een beetje "creatief" is.

In de wereld van AI noemen we dit stochasticiteit. Als je een AI vraagt om een oud document op te schonen, kan hij de eerste keer de tekst perfect houden, maar de tweede keer per ongeluk een zin weggooien of een woord toevoegen dat er niet hoorde. Dat is gevaarlijk als je historische documenten bewaart.

2. De Oplossing: Het "Super-Panel" (Ensemble)

In plaats van te vertrouwen op één AI-kok, heeft de auteur een panel van zeven verschillende koks (verschillende AI-modellen) ingehuurd.

Hij laat elk model hetzelfde oude document twee keer opschonen. Dan heeft hij 14 versies van hetzelfde document. Nu komt het slimme deel: hij kiest niet zomaar de eerste versie die hij ziet. Hij gebruikt een sneltest om te zien welke versie het beste is.

3. De Sneltest: Twee Nieuwe Maatstaven

Hoe weet je welke AI-versie het beste is? De auteur heeft twee nieuwe meetlatjes (metrieken) bedacht:

De "Origineel-Bewaringstest" (CPR):
Stel je voor dat je een foto van een schilderij maakt. Als je de foto maakt, mag je geen stukjes van het schilderij weggooien en mag je geen nieuwe bloemetjes erbij tekenen die er niet waren.
Deze test kijkt naar hoeveel letters en lettercombinaties in de originele tekst nog terugkomen in de nieuwe tekst. Als de AI te veel toevoegt of weghaalt, zakt de score. De beste AI is degene die de tekst het meest "onveranderd" laat, terwijl hij de fouten eruit haalt.
De "Netjesheidstest" (TWF):
Bij het taggen (het labelen van woorden, zoals "Dit is een datum" of "Dit is een organisatie") moet de AI speciale tags gebruiken, net als haakjes in een recept: <datum>1945</datum>.
Deze test kijkt of elke opening van een haakje ook weer netjes wordt gesloten. Als de AI een haakje vergeet te sluiten, is het resultaat "rommelig" en telt het niet mee.

4. Het Resultaat: De Slimste en Goedkoopste

De auteur heeft verschillende AI-modellen getest, van de zeer krachtige (en dure) modellen tot de kleinere, snellere (en goedkopere) versies.

De winnaar: Het model GPT-4.1 was de beste in het opschonen en labelen. Het hield de tekst bijna perfect intact (99,99% bewaard) en maakte geen fouten in de haakjes.
De slimme bespaarder: Maar wacht! Het kleinere model GPT-4.1-mini deed bijna net zo goed, maar kostte 80% minder geld.

Het is alsof je een dure, beroemde chef-kok kunt inhuren voor €100, maar een lokale, even talentvolle kok voor €20 die precies hetzelfde gerecht maakt. Voor grote projecten (zoals duizenden documenten) is dat een enorme besparing.

5. Waarom is dit belangrijk?

Door deze oude, rommelige documenten schoon te maken en te labelen, kunnen computers ze eindelijk begrijpen.

Vroeger: Een computer zag alleen een muur van tekst.
Nu: De computer ziet: "Ah, dit is een datum, dit is een land, en dit is een besluit."

Hierdoor kunnen er kennisgrafieken worden gemaakt. Denk hierbij aan een gigantisch, digitaal spinnenweb dat alle verbanden tussen landen, gebeurtenissen en beslissingen van de VN laat zien. Dit helpt historici, beleidsmakers en onderzoekers om patronen te zien die voorheen verborgen zaten in die rommelige oude documenten.

Conclusie

De kernboodschap van dit paper is simpel: Je hoeft niet altijd de duurste AI te gebruiken om het beste resultaat te krijgen. Door slimme tests te maken en meerdere AI's met elkaar te vergelijken, kun je een systeem bouwen dat niet alleen heel nauwkeurig is, maar ook heel goedkoop en betrouwbaar. Het is een manier om de chaos van het verleden om te zetten in een heldere, digitale toekomst.

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

1. Het Probleem: De "Geestelijke" AI

2. De Oplossing: Het "Super-Panel" (Ensemble)

3. De Sneltest: Twee Nieuwe Maatstaven

4. Het Resultaat: De Slimste en Goedkoopste

5. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

1. Het Probleem: De "Geestelijke" AI

2. De Oplossing: Het "Super-Panel" (Ensemble)

3. De Sneltest: Twee Nieuwe Maatstaven

4. Het Resultaat: De Slimste en Goedkoopste

5. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models