Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Erklärung der Forschung von Hussein Ghaly, als würde man sie einem Freund beim Kaffee erzählen:

Das große Puzzle der UN-Resolutionen

Stellen Sie sich vor, die Vereinten Nationen (UN) haben über 80 Jahre lang unzählige Dokumente geschrieben – Resolutionen des Sicherheitsrates. Diese sind wie eine riesige, alte Bibliothek voller wichtiger Entscheidungen über Frieden und Sicherheit. Aber es gibt ein Problem: Viele dieser alten Dokumente wurden mit Schreibmaschinen getippt, dann eingescannt und von Computern in Text umgewandelt (OCR).

Das Ergebnis ist oft ein chaotischer Wirrwarr:

Der Text ist in zwei Spalten aufgeteilt (Englisch links, Französisch rechts), aber der Computer liest sie durcheinander.
Es gibt Tippfehler, falsche Zeilenumbrüche und seltsame Bindestriche.
Es ist, als würde man versuchen, ein altes, verstaubtes Buch zu lesen, bei dem die Seiten durcheinandergeraten sind und die Tinte verlaufen ist.

Die Forscher wollen diese Texte jetzt so aufbereiten, dass Computer sie verstehen können. Dazu müssen sie zwei Dinge tun:

Aufräumen: Den Text korrigieren und in eine einzige, klare Spalte bringen.
Markieren (Tagging): Wichtige Begriffe wie „Ort", „Organisation" oder „Datum" mit unsichtbaren digitalen Etiketten versehen, damit ein Computer weiß: „Aha, das hier ist ein Datum!"

Das Problem mit den KI-Genies (LLMs)

Um diese Aufgabe zu lösen, nutzen die Forscher moderne Künstliche Intelligenzen (LLMs), die wie extrem kluge, aber manchmal launische Assistenten sind.

Das Problem: Wenn Sie denselben Assistenten zweimal die gleiche Aufgabe geben, bekommt er vielleicht zweimal leicht unterschiedliche Antworten. Manchmal ist er sehr genau, manchmal fügt er Dinge hinzu, die nicht da waren (Halluzinationen), oder vergisst Teile.
Die Gefahr: Bei historischen Dokumenten darf man nichts erfinden und nichts weglassen. Der Text muss zu 100 % dem Original entsprechen, nur sauberer und besser markiert.

Die Lösung: Ein Team statt eines Einzelkämpfers

Statt sich auf einen KI-Assistenten zu verlassen, hat Hussein Ghaly eine clevere Idee entwickelt: Ein Ensemble-System.

Stellen Sie sich vor, Sie haben nicht einen, sondern sieben verschiedene Experten (verschiedene KI-Modelle von OpenAI). Sie geben ihnen allen denselben chaotischen Text und bitten sie, ihn zu säubern und zu markieren.

Aber wie weiß man, welcher Experte die beste Arbeit geliefert hat? Hier kommen die zwei neuen „Messlatten" ins Spiel:

Der „Treue-Messstab" (Content Preservation Ratio - CPR):
- Die Analogie: Stellen Sie sich vor, Sie kopieren ein wertvolles Gemälde. Der Messstab prüft, ob der Kopist wirklich jeden Pinselstrich des Originals übernommen hat oder ob er eigene Blumen hinzugefügt hat.
- Die KI prüft, ob im sauberen Text genau dieselben Wortkombinationen vorkommen wie im Original. Wenn die KI etwas Erfindet oder weglässt, sinkt der Wert.
Der „Ordnungs-Messstab" (Tag Well-Formedness - TWF):
- Die Analogie: Stellen Sie sich vor, Sie packen Koffer. Jeder offene Koffer muss auch wieder zugeklappt werden. Wenn Sie einen Koffer öffnen (<Koffer>) und ihn nicht schließen (</Koffer>), ist die Aufgabe schlecht gemacht.
- Dieser Messstab prüft, ob alle digitalen Markierungen korrekt geöffnet und geschlossen wurden.

Der Wettbewerb und der Gewinner

Das System lässt alle sieben KI-Modelle (von den großen, teuren „Super-Genies" bis zu den kleinen, günstigen „Kleingeistern") mehrmals arbeiten. Dann vergleicht es die Ergebnisse mit den beiden Messstäben.

Das Ergebnis: Das Modell GPT-4.1 war der beste „Aufräumer" und „Markierer". Es war extrem genau und fügte nichts Falsches hinzu.
Die Überraschung: Die kleinen Modelle (wie GPT-4.1-mini) waren fast genauso gut, kosteten aber nur 20 % des Preises der großen Modelle.

Warum ist das so wichtig?

Stellen Sie sich vor, Sie müssten eine riesige Bibliothek digitalisieren. Wenn Sie nur die teuersten, größten KI-Modelle nutzen, kostet das ein Vermögen. Wenn Sie aber wissen, dass ein kleineres, günstigeres Modell fast genauso gut arbeitet, sparen Sie riesige Summen.

Die Zusammenfassung in einem Satz:
Die Forscher haben einen cleveren „Richter" gebaut, der prüft, welche KI am besten und billigsten alte UN-Dokumente aufräumt und für Computer lesbar macht, ohne dabei die Geschichte zu verfälschen.

Was bringt das uns?

Am Ende entsteht eine riesige, saubere Datenbank. Diese kann dann genutzt werden, um ein Wissensnetzwerk (Knowledge Graph) zu bauen. Stellen Sie sich ein riesiges Netz vor, das alle UN-Resolutionen, die darin genannten Länder, Personen und Ereignisse miteinander verbindet. So können wir viel besser verstehen, wie sich die Weltgeschichte entwickelt hat, und die UN kann ihre Arbeit effizienter gestalten.

Es ist wie der Unterschied zwischen einem Haufen loser Zettel und einem perfekt sortierten, durchsuchbaren Archiv – nur dass diesmal eine KI-Horde dabei geholfen hat, die Zettel zu sortieren, ohne dabei die Originaltexte zu beschädigen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions" von Hussein Ghaly auf Deutsch:

1. Problemstellung

Das Ziel der Arbeit ist die semantische Kennzeichnung (Semantic Tagging) von Resolutionen des UN-Sicherheitsrates, um deren Strukturierung für den Aufbau von Wissensgraphen und die maschinelle Lesbarkeit zu verbessern. Die Herausforderung liegt in der Natur der Quelldaten:

Datenqualität: Die Dokumente stammen aus dem Zeitraum 1946–2025. Frühe Resolutionen (vor ca. 2000) wurden mit Schreibmaschinen erstellt, gescannt und mittels OCR (Optical Character Recognition) in Text umgewandelt. Dies führt zu OCR-Fehlern, Tippfehlern und unerwünschten Trennstrichen.
Formatierung: Bis in die 1980er Jahre wurden diese Dokumente oft in einem Zweispalten-Format verfasst, wobei die zweite Spalte oft die französische Übersetzung des englischen Textes der ersten Spalte enthielt. Herkömmliche NLP-Tools scheitern oft daran, dass eine Zeile im Datei-Format Textfragmente aus beiden Spalten enthalten kann.
LLM-Herausforderungen: Große Sprachmodelle (LLMs) sind stochastisch. Ihre Ausgabe variiert selbst bei identischem Eingabe-Prompt (abhängig vom Temperatur-Parameter). Zudem besteht die Gefahr von „Halluzinationen" (Hinzufügen nicht vorhandener Inhalte) oder dem Auslassen notwendiger Teile des Originaltextes. Es fehlt oft eine robuste Metrik, um die Qualität der Ausgabe objektiv zu messen.

2. Methodik

Der Autor schlägt einen Ensemble-Ansatz vor, der mehrere LLM-Modelle parallel ausführt und deren Ausgaben basierend auf definierten Metriken bewertet und optimiert. Der Prozess gliedert sich in zwei Hauptaufgaben:

A. Textbereinigung (Cleaning)

Ziel: Umwandlung des gescannten, zweispaltigen Textes in einen sauberen, einspaltigen Text, Korrektur von OCR-Fehlern, Entfernen von Druck-Trennstrichen und Trennung von englischen und französischen Textteilen.
Prompt: Ein spezifischer Prompt instruiert das Modell, nur die bereinigte Ausgabe zu liefern.
Prozess: Für jedes Dokument werden mehrere Durchläufe (Runs) mit verschiedenen Modellen durchgeführt (Temperatur = 1, um Varianz zu erzeugen).

B. Semantische Kennzeichnung (Semantic Tagging)

Ziel: Markierung relevanter Entitäten im bereinigten Text mit XML-Tags: <location>, <entity>, <event>, <organization>, <date>.
Einschränkung: Der Originaltext muss zu 100 % erhalten bleiben; es dürfen keine Inhalte hinzugefügt oder weggelassen werden, außer den Tags selbst.
Ensemble-Strategie: Anstatt sich auf ein einzelnes Modell zu verlassen, werden 7 verschiedene Modelle (u.a. GPT-4.1, GPT-4.1-mini, GPT-5-mini, GPT-5-nano) jeweils zweimal pro Dokument ausgeführt.

C. Evaluationsmetriken

Um die beste Ausgabe aus dem Ensemble auszuwählen, wurden zwei neue Metriken eingeführt:

Content Preservation Ratio (CPR): Misst die Treue zum Eingabetext. Sie berechnet die Häufigkeit von Bigrammen (Zwei-Wort-Folgen) im Eingabe- und Ausgabetext.
- Formel: $CPR = \frac{\sum c_{in}(b)}{\sum c_{in}(b) - \sum |c_{in}(b) - c_{out}(b)|}$
- Ein hoher CPR-Wert bedeutet, dass keine Wörter hinzugefügt oder weggelassen wurden. Bigramme werden verwendet, da Edit-Distance-Algorithmen bei dem verrauschten OCR-Eingabetext ungenau wären.
Tag Well-Formedness (TWF): Stellt sicher, dass das XML-Format korrekt ist. Jeder öffnende Tag muss einem schließenden Tag entsprechen, und alle Tags müssen am Ende geschlossen sein.
- Formel: $TWF = \frac{N_{pairs}}{N_{pairs} + N_{malformed}}$
Anzahl der gefundenen Tags (nT): Ein Maß für die Recall-Rate (wie viele relevante Entitäten wurden erkannt?).

Das Ensemble wählt für jedes Dokument die Ausgabe aus, die nach einer Priorisierung (zuerst CPR, dann TWF, dann nT) am besten abschneidet.

3. Wichtige Beiträge

Pipeline-Entwicklung: Eine skalierbare Methode zur Bereinigung und semantischen Kennzeichnung historischer UN-Resolutionen mittels LLMs.
Neue Metriken: Einführung von CPR und TWF, um die Zuverlässigkeit und Format-Korrektheit von LLM-Ausgaben bei Transformationsaufgaben objektiv zu messen.
Empirischer Vergleich: Analyse des Trade-offs zwischen Genauigkeit, Kosten und Geschwindigkeit bei verschiedenen Modellgrößen (Full, Mini, Nano) und Generationen (GPT-4 vs. GPT-5).
Datenkorpus: Erstellung eines semantisch annotierten Korpus der UN-Sicherheitsratsresolutionen als Grundlage für zukünftige Wissensgraphen.

4. Ergebnisse

Die Studie wurde an einer Stichprobe von 10 Dokumenten getestet:

Bereinigungsaufgabe:
- Bestes Modell: GPT-4.1 erreichte die höchste CPR von 84,9 %.
- Kosten-Nutzen: Kleinere Modelle wie GPT-4.1-mini erzielten mit 83,5 % CPR fast die gleiche Leistung wie das beste Modell, kosteten aber nur 20 % der Kosten pro Dokument ($0,0028 vs. $0,0139).
Semantische Kennzeichnung:
- Bestes Modell: GPT-4.1 erzielte hervorragende Werte: CPR 99,99 %, TWF 99,92 % und durchschnittlich 92,6 gefundene Tags.
- Kosten-Effizienz: Auch hier schnitt GPT-4.1-mini sehr gut ab (CPR 99,92 %, TWF 99,64 %) bei nur 19 % der Kosten des großen Modells.
- GPT-5.1 zeigte ähnliche hohe Werte wie GPT-4.1, war jedoch teurer.
Geschwindigkeit: Kleinere Nano-Modelle waren schneller, erzielten aber bei der Bereinigung deutlich schlechtere Ergebnisse.

5. Bedeutung und Ausblick

Kosteneffizienz: Die Studie beweist, dass für komplexe Datenbereinigungs- und Kennzeichnungsaufgaben nicht zwingend die teuersten, größten Modelle benötigt werden. Durch den Ensemble-Ansatz und die Auswahl basierend auf Metriken können kleinere Modelle (Mini-Versionen) eingesetzt werden, was massive Einsparungen bei datenintensiven Projekten ermöglicht.
Zuverlässigkeit: Der Ansatz adressiert das Problem der Stochastik bei LLMs, indem er Varianz nutzt, um die beste Ausgabe zu finden, anstatt sich auf einen einzelnen, potenziell fehlerhaften Durchlauf zu verlassen.
Anwendung: Die resultierenden strukturierten Daten (XML) ermöglichen den Aufbau von Wissensgraphen für die UN, die Entitäten, Mandate und Ereignisse verknüpfen. Dies ist ein wichtiger Schritt hin zu standardisierten, maschinenlesbaren Dokumenten (im Einklang mit Akoma Ntoso-Standards).
Zukünftige Arbeit: Der Autor plant, das Ensemble weiterzuentwickeln, um nicht nur eine Ausgabe auszuwählen, sondern mehrere Ausgaben zu integrieren (z.B. durch Konsensbildung bei Tags), um die Genauigkeit weiter zu erhöhen.

Zusammenfassend demonstriert das Paper einen pragmatischen und messbaren Weg, wie LLMs zur Automatisierung der Aufbereitung historischer, unstrukturierter juristischer Texte eingesetzt werden können, wobei Zuverlässigkeit und Kostenoptimierung im Vordergrund stehen.