DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Roboter bauen, der dir im Labor hilft. Nicht irgendeinen Roboter, sondern einen, der wirklich denkt, nicht nur Befehle ausführt. Das ist das Ziel von DAVIS, einem neuen KI-Agenten, den Forscher entwickelt haben.

Hier ist die Geschichte von DAVIS, erzählt mit ein paar einfachen Bildern:

1. Das Problem: Der vergessliche Assistent

Frühere KI-Assistenten waren wie Schüler, die für eine Prüfung gelernt haben, aber im Moment der Wahrheit alles vergessen haben.

Sie konnten einfache Aufgaben lösen, aber wenn es kompliziert wurde (z. B. "Pflanze wachsen lassen" oder "Chemie-Experiment"), gerieten sie in Panik.
Sie hatten kein gutes Gedächtnis für die Vergangenheit. Wenn sie einen Fehler machten, wussten sie nicht, warum er passiert war, und wiederholten ihn einfach.
Sie konnten nicht wirklich "nachdenken", bevor sie handelten.

2. Die Lösung: DAVIS mit dem "Inneren Monolog"

DAVIS ist anders. Stell dir DAVIS nicht als einen Roboter vor, der sofort loslegt, sondern als einen kleinen Wissenschaftler in deinem Kopf, der ständig mit sich selbst spricht.

Wir nennen das den "Inneren Monolog".

Wie ein Detektiv: Stell dir vor, du suchst nach einem Schlüssel. Ein normaler Roboter würde einfach alle Türen aufstoßen. DAVIS hingegen würde erst stehen bleiben und denken: "Wo habe ich den Schlüssel das letzte Mal gesehen? War es im Wohnzimmer? War es gestern? Ich sollte erst mal im Gedächtnis nachschauen."
Das Gespräch mit dem Gehirn: DAVIS führt ein Gespräch mit sich selbst. Er fragt: "Was weiß ich über dieses Werkzeug?" und "Was ist passiert, als ich das letzte Mal versucht habe, Wasser zu erhitzen?" Erst wenn er alle Antworten gesammelt hat, handelt er.

3. Das Gehirn: Die Zeitreise-Karte (Wissensgraph)

Das Herzstück von DAVIS ist sein Gedächtnis, das sie Weltmodell nennen. Aber vergiss eine normale Liste oder ein Notizbuch.

Stell dir DAVIS' Gedächtnis wie eine riesige, lebendige Landkarte vor, auf der nicht nur Orte, sondern auch Zeit verzeichnet ist.

Wenn DAVIS lernt, dass "Wasser kochen" bedeutet, dass es "heiß wird", zeichnet er das auf.
Aber er merkt sich auch: "Das war gestern passiert."
Wenn er morgen wieder Wasser kocht, schaut er auf diese Karte und weiß: "Aha, wenn ich das Feuer anzünde, wird es heiß, aber es dauert 5 Minuten."

Das ist wie ein Zeitmaschinen-Modell: Es verbindet das, was war, mit dem, was jetzt ist, um vorherzusagen, was als Nächstes passiert.

4. Der Bauplan: Der Architekt und der Bauleiter

DAVIS arbeitet mit einem Team aus zwei Teilen, die wie ein Architekt und ein Bauleiter zusammenarbeiten:

Der Architekt (Der Planer): Er sitzt am Schreibtisch und malt den perfekten Plan auf. Er denkt voraus: "Zuerst hole ich das Glas, dann das Wasser, dann das Feuer." Er prüft den Plan auf Fehler, bevor er ihn umsetzt. Das ist sicherer, als einfach drauflos zu bauen.
Der Bauleiter (Der Kritiker): Er ist auf der Baustelle. Er führt die Befehle aus. Aber er hat auch ein Auge auf den Architekten.
- Wenn der Plan sagt: "Das Wasser kocht sofort", der Bauleiter aber sieht: "Nö, es ist noch kalt", dann ruft er sofort: "Stopp! Der Plan war falsch!"
- Dann gehen sie zurück zum Architekten, korrigieren den Plan und versuchen es neu.

5. Warum ist das so toll?

In Tests (in einer virtuellen Welt namens "ScienceWorld") hat DAVIS gezeigt, dass er viel besser ist als alle anderen KI-Systeme, die es bisher gab.

Er macht weniger Fehler.
Er braucht weniger Versuche, um eine Aufgabe zu lösen.
Er ist sicherer, weil er erst nachdenkt, bevor er handelt.

Zusammenfassung in einem Satz

DAVIS ist wie ein sehr vorsichtiger, gut vorbereiteter Wissenschaftler, der sich ein lebendiges Gedächtnis von der Zeit und der Welt geschaffen hat, ständig mit sich selbst diskutiert, bevor er einen Schritt macht, und sofort merkt, wenn etwas schiefgeht, um den Plan zu korrigieren.

Warum ist das wichtig?
Weil echte Wissenschaft und Laborarbeit gefährlich und kompliziert sein können. Wir brauchen Roboter, die nicht nur "dumm" Befehle ausführen, sondern wirklich verstehen, was sie tun, damit sie uns sicher helfen können – ohne uns in die Finger zu schneiden oder das Labor in die Luft zu jagen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung von allgemeinen KI-Agenten, die komplexe Aufgaben in Laborumgebungen autonom ausführen können, ist ein zentrales Ziel der aktuellen KI-Forschung. Im Gegensatz zu alltäglichen Aufgaben erfordern wissenschaftliche Experimente eine höhere Ebene an:

Reasoning (Schlussfolgerung): Fähigkeit zu mehrstufigem, logischem Denken.
Struktur und Zeitlichkeit: Verständnis dafür, wie sich die Umgebung über die Zeit entwickelt (z. B. verzögerte Effekte von Aktionen).
Sicherheit: Notwendigkeit, physische Konsequenzen vorherzusehen und Handlungen zu rechtfertigen.

Bestehende Ansätze wie Reinforcement Learning (RL) leiden oft unter Ineffizienz bei der Datennutzung und mangelnder Interpretierbarkeit. Methoden auf Basis von Large Language Models (LLMs) wie Chain-of-Thought (CoT) oder statische Retrieval-Augmented Generation (RAG) Systeme scheitern häufig an der fehlenden Fähigkeit, kausale Zusammenhänge über mehrere Schritte hinweg zu verstehen oder dynamisch auf neue Erfahrungen zu reagieren, da sie oft nur statische Informationen abrufen und keine zeitliche Modellierung besitzen.

2. Methodik: Das DAVIS-Framework

DAVIS (Davis Agent for Virtual Interactive Scientific reasoning) ist ein agenter Rahmen, der eine modellbasierte Planung mit einem zeitlichen Wissensgraphen (Temporal Knowledge Graph, TKG) als Weltmodell (World Model, WM) kombiniert.

Kernkomponenten:

Weltmodell (World Model - WM):
- Das WM ist ein dynamischer, zeitlicher Wissensgraph. Er wird durch die Extraktion von Entitäten und Relationen aus den Interaktionshistorien des Agenten (Aktionen, Beobachtungen, Belohnungen) mittels LLM-Prompts und Stanford CoreNLP (für Coreferenzauflösung) aufgebaut.
- Im Gegensatz zu statischen Vektordatenbanken ermöglicht der TKG multi-hop Reasoning (Schlussfolgerungen über mehrere Knoten hinweg) und kausales Verständnis, da er Zeitstempel für Fakten enthält.
Innerer Monolog (Inner Monologue):
- Dies ist ein agenter, mehrstufiger Abrufprozess. Bevor der Agent handelt, führt er eine interne „Konversation" mit seinem Weltmodell durch.
- Der Agent stellt iterative Fragen an den Wissensgraphen, um Wissenslücken zu füllen, relevante Teilgraphen zu extrahieren und die zeitliche Abfolge von Ereignissen zu rekonstruieren.
- Dieser Prozess erlaubt es dem Agenten, seine Strategie zu verfeinern und Hypothesen zu testen, bevor er Aktionen in der Umgebung ausführt.
Architektur (Actor-Critic mit Weltmodell):
- Planung: Das WM generiert eine vorausschauende Trajektorie (Folge von Zuständen und Aktionen) basierend auf dem aktuellen Glauben (Belief State) und dem inneren Monolog.
- Actor (Akteur): Zerlegt die hochleveligen Pläne des WM in ausführbare, feingranulare Befehle für die Umgebung.
- Critic (Kritiker): Vergleicht die tatsächlichen Umgebungsantworten mit den vom WM vorhergesagten Ergebnissen. Bei Abweichungen (z. B. ein Gerät ist defekt) löst der Critic eine Neubearbeitung (Replanning) aus und aktualisiert den inneren Monolog mit Reflexionen über den Fehler.

Formale Grundlage

Das Problem wird als Partially Observable Markov Decision Process (POMDP) formuliert. DAVIS approximiert den Belief State ( $\hat{b}_t$ ) und die Übergangs-/Belohnungsfunktionen durch den Abruf von Erfahrungen aus dem TKG, anstatt sich nur auf die internen Gewichte des LLMs zu verlassen.

3. Wichtige Beiträge

DAVIS-Framework: Einführung eines neuen Agenten-Frameworks, das mehrstufigen Abruf (multi-turn retrieval) und Selbstreflexion nutzt, um die Entscheidungsfindung zu verbessern.
Strukturiertes Zeitgedächtnis: Im Gegensatz zu statischen RAG-Ansätzen nutzt DAVIS einen zeitlichen Wissensgraphen, der kausales und zeitbasiertes Reasoning ermöglicht.
Interaktiver Abruf: DAVIS ist der erste RAG-Agent, der eine interaktive Abrufmethode („Inner Monologue") in die Pipeline integriert, um dynamisch auf Wissenslücken zu reagieren.
Actor-Critic-Integration: Eine Architektur, die während der Ausführung läuft und kontinuierlich Pläne validiert und bei Fehlern korrigiert, anstatt nur nachträglich zu evaluieren.

4. Ergebnisse

Die Evaluation erfolgte primär im ScienceWorld-Benchmark (9 naturwissenschaftliche Fächer, 30 Aufgaben) und auf den Multi-Hop-Fragebeantwortungs-Datensätzen HotpotQA und MusiqueQA.

ScienceWorld:
- DAVIS übertraf vier State-of-the-Art-Baselines (SayCan, ReAct, Reflexion, RAP) in 8 von 9 wissenschaftlichen Fächern.
- Der durchschnittliche Gesamtscore lag bei 65,06, was etwa dem 1,8-fachen der konkurrierenden Methoden entspricht.
- Der Agent benötigte weniger Schritte, um zu konvergieren, und zeigte eine bessere Fähigkeit, Wissen von Trainingsaufgaben auf neue Variationen zu übertragen.
Ablationsstudie:
- Das Entfernen des Weltmodells (WM) führte zu einem drastischen Leistungsabfall, was die Notwendigkeit von strukturiertem, zeitlichem Gedächtnis für komplexe Aufgaben unterstreicht.
- Das Entfernen des Critic-Moduls führte zu schlechterer Fehlerkorrektur bei längeren Aufgabenketten.
Multi-Hop QA:
- Auf HotpotQA und MusiqueQA erreichte das WM von DAVIS konkurrenzfähige Ergebnisse (F1-Score 73,8 auf HotpotQA), die nahe an State-of-the-Art-Systemen wie HOLMES liegen, jedoch mit dem Vorteil der dynamischen Anpassungsfähigkeit.

5. Bedeutung und Fazit

DAVIS stellt einen Paradigmenwechsel dar, indem es die Lücke zwischen statischen Wissensabrufsystemen und dynamischen, planenden Agenten schließt.

Interpretierbarkeit & Sicherheit: Durch den „inneren Monolog" und die Vorab-Validierung von Plänen durch das Weltmodell sind die Entscheidungsprozesse des Agenten für menschliche Aufsichtspersonen nachvollziehbar. Dies ist ein entscheidender Vorteil gegenüber „Black-Box"-RL-Agenten, besonders in sicherheitskritischen Umgebungen wie Laboren.
Generalisierung: Die Fähigkeit, aus vergangenen Erfahrungen kausale Modelle abzuleiten, ermöglicht es dem Agenten, sich an unbekannte Szenarien anzupassen, ohne dass neue Trainingsdaten benötigt werden.
Herausforderungen: Die aktuelle Implementierung ist rechenintensiv (hohe Token-Kosten pro Aktion) und stark von der Leistung der zugrundeliegenden kommerziellen LLMs abhängig. Zukünftige Arbeiten zielen darauf ab, die Architektur auf kleinere, Open-Source-Modelle zu distillieren und multimodale Fähigkeiten (visuelle/sensorische Eingaben) zu integrieren.

Zusammenfassend demonstriert DAVIS, dass die Kombination aus strukturiertem Wissensgraphen, iterativem Abruf und modellbasierter Planung einen vielversprechenden Weg für den Einsatz von KI-Agenten in komplexen, wissenschaftlichen und sicherheitsrelevanten Domänen darstellt.