Agent-OM: Leveraging LLM Agents for Ontology Matching

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben zwei riesige Bibliotheken. In der einen Bibliothek (die „Quelle") sind die Bücher nach einem bestimmten System sortiert, und in der anderen (das „Ziel") gibt es ein völlig anderes System. Beide Bibliotheken haben Bücher über das gleiche Thema, aber sie nennen sie unterschiedlich oder ordnen sie anders ein.

Das Problem:
Ein Computer muss herausfinden: „Ist das Buch 'Der große Gatsby' in Bibliothek A dasselbe wie das Buch 'Gatsby, der Große' in Bibliothek B?"
Früher brauchten dafür teure Experten, die stundenlang nachschauen mussten. Später kamen Computerprogramme, die Muster lernten, aber diese brauchten riesige Mengen an Trainingsdaten, die es oft gar nicht gab. Und wenn man einfach eine moderne KI (ein „Large Language Model" oder LLM) fragte, passierte oft etwas Schlimmes: Die KI halluzinierte. Sie war so kreativ, dass sie Dinge erfand, die nicht stimmten, oder sie vergaß wichtige Details, weil sie zu viel auf einmal verarbeiten musste.

Die Lösung: Agent-OM
Die Autoren dieses Papers haben eine neue Idee entwickelt, die sie Agent-OM nennen. Statt die KI nur als einen „Fragkasten" zu benutzen, haben sie sie in einen intelligenten Assistenten verwandelt.

Hier ist die Erklärung mit einfachen Analogien:

1. Der Assistent mit einem Plan (Planning & CoT)

Stellen Sie sich die KI nicht als jemanden vor, der sofort eine Antwort schreit, sondern als einen Detektiv.
Ein Detektiv springt nicht sofort zum Schluss. Er macht einen Plan:

„Zuerst schaue ich mir die Titel an."
„Dann prüfe ich die Autoren."
„Dann lese ich die Zusammenfassung."
„Und zum Schluss vergleiche ich alles."

Das nennt man Chain of Thought (Gedankenkette). Der Agent bricht die riesige Aufgabe des „Bücher-Vergleichens" in kleine, machbare Schritte auf. Das verhindert, dass er den Überblick verliert.

2. Der Assistent mit Werkzeugen (Tools)

Ein Detektiv braucht keine Ratschläge von der KI, er braucht Werkzeuge.

Der Bibliothekar (Retrieval Agent): Dieser Teil des Systems geht in die Regale, holt die Bücher heraus und liest die Rückseiten (Metadaten, Beschreibungen). Er schreibt sich alles in ein Notizbuch.
Der Sucher (Matching Agent): Dieser Teil nimmt die Notizen und sucht im großen Archiv nach ähnlichen Einträgen.

Das Wichtigste: Der Agent nutzt Werkzeuge, um Fakten zu prüfen, anstatt sich nur auf sein Gedächtnis zu verlassen. Wenn er unsicher ist, fragt er nach, statt etwas zu erfinden.

3. Das Gedächtnis (Memory & RAG)

KIs haben oft ein kurzes Gedächtnis. Wenn sie zu viele Bücher auf einmal sehen sollen, vergessen sie das erste Buch, bevor sie das letzte prüfen.
Agent-OM gibt dem Assistenten ein perfektes Gedächtnis:

Kurzzeitgedächtnis: Er behält den aktuellen Gesprächsverlauf im Kopf.
Langzeitgedächtnis (RAG): Alle Informationen über die Bücher werden in einer super-schnellen Datenbank gespeichert. Wenn der Agent etwas sucht, holt er sich die genauen Fakten aus dieser Datenbank, statt sie aus dem Nichts zu erfinden. Das nennt man Retrieval-Augmented Generation.

4. Die Doppel-Check-Methode (Siamese Agents)

Das System ist wie ein Spiegelbild aufgebaut.

Ein Agent sucht von Bibliothek A nach Büchern in Bibliothek B.
Ein zweiter, identischer Agent sucht von Bibliothek B nach Büchern in Bibliothek A.
Nur wenn beide sagen: „Ja, das ist ein Match!", wird es als Ergebnis akzeptiert. Das ist wie eine Sicherheitskontrolle am Flughafen: Zwei Personen prüfen denselben Pass, um Fehler zu vermeiden.

Warum ist das so gut?

Bei einfachen Aufgaben: Das System ist fast so gut wie die besten Experten der Welt.
Bei schwierigen Aufgaben: Hier glänzt es besonders. Wenn es nur wenige Beispiele gibt (wenige Daten) oder die Begriffe sehr komplex sind (z. B. in der Medizin oder Materialwissenschaft), schlägt Agent-OM die alten Methoden.
Kein Halluzinieren: Weil der Agent Fakten aus der Datenbank holt und sie selbst überprüft („Selbstkorrektur"), macht er viel weniger Fehler als eine normale KI.

Zusammenfassung in einem Satz

Agent-OM verwandelt eine KI von einem kreativen, aber manchmal vergesslichen Dichter in einen disziplinierten, gut organisierten Bibliothekar, der mit Plan, Werkzeugen und einem perfekten Gedächtnis die besten Übereinstimmungen zwischen zwei Welten findet.

Das Paper zeigt also, dass wir KIs nicht nur „fragen" sollten, sondern ihnen eine Rolle, ein Team und ein Werkzeugset geben müssen, damit sie echte Probleme lösen können.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papiers „Agent-OM: Leveraging LLM Agents for Ontology Matching" auf Deutsch:

1. Problemstellung und Motivation

Das Ontology Matching (OM) ist eine klassische Aufgabe zur semantischen Interoperabilität, bei der äquivalente Entitäten (Klassen und Eigenschaften) zwischen zwei verschiedenen Ontologien gefunden werden müssen. Bisherige Ansätze basieren entweder auf wissensbasierten Expertensystemen (hoher manueller Aufwand) oder auf maschinellen Lernverfahren (benötigen große Trainingsdatensätze).

Der Einsatz von Large Language Models (LLMs) für OM stößt jedoch auf erhebliche Hindernisse:

Fehlende Aktualität: LLMs sind vortrainiert und erfassen keine neuesten Informationen.
Halluzinationen: LLMs neigen in domänenspezifischen Aufgaben dazu, syntaktisch korrekte, aber faktisch falsche Aussagen zu generieren.
Eingeschränkte nicht-linguistische Fähigkeiten: LLMs haben Schwierigkeiten bei komplexer Planung, Routing und logischem Schlussfolgern, die für OM notwendig sind.
Skalierbarkeit: Das Fine-Tuning riesiger LLMs ist oft unpraktikabel, da Ontologien meist nur 100–200 Entitäten haben, während LLMs Tausende von Trainingsbeispielen benötigen. Zudem birgt das Fine-Tuning bei proprietären Modellen Datenschutzrisiken.

Die Autoren schlagen vor, LLM-Agenten zu nutzen, um diese Grenzen zu überwinden, indem sie LLMs nicht nur als Vorhersagemodelle, sondern als autonome Controller mit Planungsfähigkeiten, Gedächtnis und Werkzeugen einsetzen.

2. Methodik: Das Agent-OM Framework

Das Kernstück der Arbeit ist Agent-OM, ein generisches Framework, das auf zwei „Siamesen"-Agenten basiert (Retrieval-Agent und Matching-Agent), die eine gemeinsame Speicherschicht nutzen.

Architektur und Komponenten

Das Framework modularisiert den klassischen OM-Prozess (Retrieval $\rightarrow$ Matching) in autonome Agenten-Workflows:

Zentrale Steuerung (LLM als „Gehirn"): Ein LLM steuert die Module durch Prompt-Engineering und koordiniert die Interaktion zwischen Planung, Werkzeugen und Speicher.
Planung (Planning):
- Nutzt Chain-of-Thought (CoT), um komplexe OM-Aufgaben in handhabbare Teilaufgaben zu zerlegen.
- Definiert die Reihenfolge der Werkzeugaufrufe.
Werkzeuge (Tools):
- Retrieval-Agent: Extrahiert Entitäten und sammelt Metadaten sowie kontextuelle Informationen.
  - Metadaten-Retriever: Kategorisiert Entitäten (Quelle/Ziel, Klasse/Eigenschaft).
  - Syntaktischer/Lexikalischer/Semantischer Retriever: Bereitet Text auf (Tokenisierung, Normalisierung), generiert Bedeutungen via LLM-Prompts (ICL) und verbalisiert logische Relationen (Triple-Strukturen).
- Matching-Agent: Sucht Korrespondenzen und validiert diese.
  - Hybrid Database Search: Nutzt eine Kombination aus relationaler Datenbank (für Metadaten) und Vektordatenbank (für semantische Ähnlichkeit via Embeddings).
  - Matching Summariser: Wendet Reciprocal Rank Fusion (RRF) an, um Ergebnisse aus syntaktischen, lexikalischen und semantischen Suchen zu gewichten und zu fusionieren.
  - Matching Validator: Führt eine Selbstprüfung durch (ähnlich wie bei SelfCheckGPT), indem das LLM eine binäre Frage („Ist Entität A äquivalent zu B im Kontext X?") beantwortet, um Halluzinationen zu filtern.
  - Matching Merger: Kombiniert bidirektionale Suchergebnisse ( $O_s \rightarrow O_t$ und $O_t \rightarrow O_s$ ), um nur konsistente Zuordnungen zu akzeptieren.
Gedächtnis (Memory):
- Kurzzeitgedächtnis: Dialogverlauf für den Kontext.
- Langzeitgedächtnis: Hybrid-Datenbank (PostgreSQL mit pgvector). Metadaten werden relational gespeichert, während syntaktische, lexikalische und semantische Informationen als Vektoren gespeichert werden, um effiziente Ähnlichkeitssuchen zu ermöglichen (RAG-Ansatz).

Besondere Anpassungen

Namenskonventionen: Das System normalisiert Ontologie-Namen. Bei Codes (z. B. MA_0000270) werden stattdessen die zugehörigen Labels oder Kommentare verwendet, um die Interpretation durch das LLM zu verbessern.
Suchbasierte Matching-Funktion: Anstatt jedes Paar von Entitäten direkt zu vergleichen (Komplexität $N_s \times N_t$ ), werden Entitäten zuerst in die Datenbank geladen und dann per Vektorsuche gefiltert (Komplexität $N_s + N_t$ ), was Kosten und Token-Verbrauch drastisch senkt.

3. Schlüsselbeiträge

Neues Paradigma: Einführung eines agentenbasierten LLM-Designs für OM, das über reine Prompting-Ansätze hinausgeht.
Agent-OM Framework: Ein modulares System mit Siamesen-Agenten, das CoT, ICL/RAG und Werkzeugaufrufe integriert, um Halluzinationen zu minimieren und die Genauigkeit zu erhöhen.
Implementierung: Ein Proof-of-Concept-System, das verschiedene kommerzielle (GPT-4o, Claude) und Open-Source-Modelle (Llama, Qwen, Gemma) unterstützt.
Umgang mit Herausforderungen: Bewältigung von Kosten, Kandidatenauswahl und der Notwendigkeit von Suchfunktionen in OM-Aufgaben.

4. Ergebnisse und Evaluation

Das System wurde an drei Tracks der Ontology Alignment Evaluation Initiative (OAEI) getestet: Conference, Anatomy und MSE (Materials Science).

Einfache Aufgaben (Trivial): Bei Aufgaben mit vielen offensichtlichen Übereinstimmungen (z. B. OAEI Anatomy Test Case 1) erreicht Agent-OM Ergebnisse, die sehr nah an den besten langjährigen Systemen liegen (Platz 2 in den Jahren 2022/2023).
Komplexe und Few-Shot-Aufgaben: Bei komplexen Zuordnungen (OAEI Anatomy Test Case 2, MSE Tracks) zeigt Agent-OM signifikante Verbesserungen gegenüber dem State-of-the-Art. Es übertrifft sogar viele spezialisierte ML-Systeme und liegt nur hinter einem tiefen Lernsystem (Matcha), das von einem ungewöhnlich großen Trainingsdatensatz profitierte.
Vergleich mit Architekturen:
- Reine LLM-Ansätze (ohne Tools/Speicher) zeigen geringe Präzision und Recall.
- LLM mit Kontext (ohne Agenten-Struktur) ist teuer (hoher Token-Verbrauch) und instabil.
- Agent-OM kombiniert Effizienz und Genauigkeit durch die Nutzung von Vektorsuchen und Validierungsschritten.
Hyperparameter: Die optimalen Einstellungen wurden als Ähnlichkeitsschwelle $T \in [0.90, 0.95]$ und Top- $k \in [3, 4, 5]$ identifiziert.
Validierung: Der Matching-Validator verbessert die Präzision signifikant, indem er falsche Positive filtert, auf Kosten eines leichten Rückgangs beim Recall.

5. Bedeutung und Diskussion

Effizienz: Agent-OM ist kosteneffektiver als direkte LLM-Vergleiche, da die Vektorsuche die Anzahl der notwendigen LLM-Interaktionen reduziert.
Effektivität: Durch die Kombination von Kontextlernen, transitivem Schlussfolgern und Selbstkorrektur (Validierung) können LLMs ihre Stärken im semantischen Verständnis ausspielen, ohne die Schwächen (Halluzinationen) zu stark zu zeigen.
Moravec-Paradoxon: Die Autoren stellen fest, dass Agent-OM bei komplexen, wenig datenreichen Aufgaben (Few-Shot) hervorragend funktioniert, bei sehr einfachen Aufgaben jedoch nicht unbedingt die besten Ergebnisse liefert (da traditionelle Methoden dort oft ausreichen).
Zukunft: Das System ist skalierbar und ermöglicht die Integration von multimodalen Eingaben und mehrsprachigen Ontologien. Es wird jedoch betont, dass menschliche Aufsicht (Human-in-the-loop) bei kritischen Anwendungen weiterhin notwendig sein könnte, da Halluzinationen nur gemildert, nicht eliminiert werden können.

Fazit: Agent-OM demonstriert, dass LLM-Agenten mit Planung, Werkzeugen und Gedächtnis ein leistungsfähiges Paradigma für das Ontology Matching darstellen, das insbesondere bei komplexen, datenarmen Szenarien überlegene Ergebnisse liefert, ohne das LLM-Modell selbst neu trainieren zu müssen.