Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Diese Arbeit stellt eine Ensemble-Methode vor, die mithilfe neu entwickelter Metriken (CPR und TWF) mehrere LLMs kombiniert, um UN-Sicherheitsratsresolutionen kosteneffizient und zuverlässig zu bereinigen und semantisch zu taggen.

Hussein Ghaly

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Erklärung der Forschung von Hussein Ghaly, als würde man sie einem Freund beim Kaffee erzählen:

Das große Puzzle der UN-Resolutionen

Stellen Sie sich vor, die Vereinten Nationen (UN) haben über 80 Jahre lang unzählige Dokumente geschrieben – Resolutionen des Sicherheitsrates. Diese sind wie eine riesige, alte Bibliothek voller wichtiger Entscheidungen über Frieden und Sicherheit. Aber es gibt ein Problem: Viele dieser alten Dokumente wurden mit Schreibmaschinen getippt, dann eingescannt und von Computern in Text umgewandelt (OCR).

Das Ergebnis ist oft ein chaotischer Wirrwarr:

  • Der Text ist in zwei Spalten aufgeteilt (Englisch links, Französisch rechts), aber der Computer liest sie durcheinander.
  • Es gibt Tippfehler, falsche Zeilenumbrüche und seltsame Bindestriche.
  • Es ist, als würde man versuchen, ein altes, verstaubtes Buch zu lesen, bei dem die Seiten durcheinandergeraten sind und die Tinte verlaufen ist.

Die Forscher wollen diese Texte jetzt so aufbereiten, dass Computer sie verstehen können. Dazu müssen sie zwei Dinge tun:

  1. Aufräumen: Den Text korrigieren und in eine einzige, klare Spalte bringen.
  2. Markieren (Tagging): Wichtige Begriffe wie „Ort", „Organisation" oder „Datum" mit unsichtbaren digitalen Etiketten versehen, damit ein Computer weiß: „Aha, das hier ist ein Datum!"

Das Problem mit den KI-Genies (LLMs)

Um diese Aufgabe zu lösen, nutzen die Forscher moderne Künstliche Intelligenzen (LLMs), die wie extrem kluge, aber manchmal launische Assistenten sind.

  • Das Problem: Wenn Sie denselben Assistenten zweimal die gleiche Aufgabe geben, bekommt er vielleicht zweimal leicht unterschiedliche Antworten. Manchmal ist er sehr genau, manchmal fügt er Dinge hinzu, die nicht da waren (Halluzinationen), oder vergisst Teile.
  • Die Gefahr: Bei historischen Dokumenten darf man nichts erfinden und nichts weglassen. Der Text muss zu 100 % dem Original entsprechen, nur sauberer und besser markiert.

Die Lösung: Ein Team statt eines Einzelkämpfers

Statt sich auf einen KI-Assistenten zu verlassen, hat Hussein Ghaly eine clevere Idee entwickelt: Ein Ensemble-System.

Stellen Sie sich vor, Sie haben nicht einen, sondern sieben verschiedene Experten (verschiedene KI-Modelle von OpenAI). Sie geben ihnen allen denselben chaotischen Text und bitten sie, ihn zu säubern und zu markieren.

Aber wie weiß man, welcher Experte die beste Arbeit geliefert hat? Hier kommen die zwei neuen „Messlatten" ins Spiel:

  1. Der „Treue-Messstab" (Content Preservation Ratio - CPR):

    • Die Analogie: Stellen Sie sich vor, Sie kopieren ein wertvolles Gemälde. Der Messstab prüft, ob der Kopist wirklich jeden Pinselstrich des Originals übernommen hat oder ob er eigene Blumen hinzugefügt hat.
    • Die KI prüft, ob im sauberen Text genau dieselben Wortkombinationen vorkommen wie im Original. Wenn die KI etwas Erfindet oder weglässt, sinkt der Wert.
  2. Der „Ordnungs-Messstab" (Tag Well-Formedness - TWF):

    • Die Analogie: Stellen Sie sich vor, Sie packen Koffer. Jeder offene Koffer muss auch wieder zugeklappt werden. Wenn Sie einen Koffer öffnen (<Koffer>) und ihn nicht schließen (</Koffer>), ist die Aufgabe schlecht gemacht.
    • Dieser Messstab prüft, ob alle digitalen Markierungen korrekt geöffnet und geschlossen wurden.

Der Wettbewerb und der Gewinner

Das System lässt alle sieben KI-Modelle (von den großen, teuren „Super-Genies" bis zu den kleinen, günstigen „Kleingeistern") mehrmals arbeiten. Dann vergleicht es die Ergebnisse mit den beiden Messstäben.

  • Das Ergebnis: Das Modell GPT-4.1 war der beste „Aufräumer" und „Markierer". Es war extrem genau und fügte nichts Falsches hinzu.
  • Die Überraschung: Die kleinen Modelle (wie GPT-4.1-mini) waren fast genauso gut, kosteten aber nur 20 % des Preises der großen Modelle.

Warum ist das so wichtig?

Stellen Sie sich vor, Sie müssten eine riesige Bibliothek digitalisieren. Wenn Sie nur die teuersten, größten KI-Modelle nutzen, kostet das ein Vermögen. Wenn Sie aber wissen, dass ein kleineres, günstigeres Modell fast genauso gut arbeitet, sparen Sie riesige Summen.

Die Zusammenfassung in einem Satz:
Die Forscher haben einen cleveren „Richter" gebaut, der prüft, welche KI am besten und billigsten alte UN-Dokumente aufräumt und für Computer lesbar macht, ohne dabei die Geschichte zu verfälschen.

Was bringt das uns?

Am Ende entsteht eine riesige, saubere Datenbank. Diese kann dann genutzt werden, um ein Wissensnetzwerk (Knowledge Graph) zu bauen. Stellen Sie sich ein riesiges Netz vor, das alle UN-Resolutionen, die darin genannten Länder, Personen und Ereignisse miteinander verbindet. So können wir viel besser verstehen, wie sich die Weltgeschichte entwickelt hat, und die UN kann ihre Arbeit effizienter gestalten.

Es ist wie der Unterschied zwischen einem Haufen loser Zettel und einem perfekt sortierten, durchsuchbaren Archiv – nur dass diesmal eine KI-Horde dabei geholfen hat, die Zettel zu sortieren, ohne dabei die Originaltexte zu beschädigen.