DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge, slimme assistent hebt die je wilt leren om in een laboratorium te werken. De uitdaging? Het moet niet alleen slim zijn, maar ook voorzichtig, geduldig en in staat om te leren van zijn fouten, net als een mens.

Dit is precies wat de onderzoekers van het Davis Institute hebben gedaan met hun nieuwe creatie: DAVIS.

Hier is een uitleg van hoe het werkt, vertaald naar alledaagse taal en met een paar leuke vergelijkingen.

1. Het Probleem: De "Blindvliegende" Robot

Tot nu toe waren veel AI-agenten (robots die taken uitvoeren) als een blinde vlieg in een web. Ze probeerden dingen te doen door veel te proberen en te falen (zoals bij Reinforcement Learning), of ze leken op een student die een examen maakt zonder zijn boekje erbij te hebben. Ze hadden geen goed geheugen voor wat ze eerder hadden gedaan, en als ze een fout maakten, wisten ze vaak niet waarom.

In een laboratorium is dat gevaarlijk. Je kunt niet zomaar "proberen" om chemicaliën te mengen als je niet zeker weet wat er gebeurt. Je moet plannen, nadenken en weten wat er gisteren gebeurde om te weten wat je vandaag moet doen.

2. De Oplossing: DAVIS met een "Innerlijk Gesprek"

DAVIS is anders. Het heeft een superkracht die de onderzoekers "Innerlijk Gesprek" (of Inner Monologue) noemen.

Stel je voor dat DAVIS een detective is die een mysterie moet oplossen.

De Gewone Agent: Kijkt alleen naar wat er nu gebeurt en probeert raadsels op te lossen door te gissen.
DAVIS: Heeft een dossierkast (een kennisgrafiek) vol met alle feiten die hij ooit heeft gezien. Maar hij doet niet alleen alsof hij leest; hij praat met zichzelf.

Wanneer DAVIS een taak krijgt (bijvoorbeeld: "Maak een plant groeien"), denkt hij niet direct: "Ik giet water." Nee, hij start een intern gesprek:

"Waar heb ik water gezien?" (Hij zoekt in zijn dossier).
"Ah, in de kast. Maar wacht, gisteren was de kast leeg. Is hij nu vol?" (Hij kijkt naar de tijdlijn).
"Oké, als ik water haal, moet ik eerst de deur openen. Wat gebeurt er als ik de deur open en er geen water is?"

Dit proces noemen ze retrieval: het actief opzoeken van informatie in zijn geheugen, net zoals jij je herinnert wat je gisteren at om te weten wat je vandaag kunt eten.

3. De Drie Delen van DAVIS

DAVIS werkt als een goed georganiseerd team van drie personen:

De Wereldmodel (Het Dossier):
Dit is het brein dat alles onthoudt in een tijdsgebonden kaart (een Temporal Knowledge Graph). Het is niet zomaar een lijstje; het is een kaart die laat zien wie wat deed, wanneer en waarom. Als je een plant water geeft, onthoudt dit model niet alleen "plant", maar ook "plant kreeg water om 14:00 uur". Dit helpt DAVIS om te begrijpen dat dingen veranderen door de tijd.
De Acteur (De Uitvoerder):
Dit is de handen van DAVIS. Als het Wereldmodel een plan heeft ("Haal water, giet het in de pot"), vertaalt de Acteur dit naar concrete commando's die de computer kan uitvoeren.
De Criticus (De Controleur):
Dit is de belangrijkste nieuwe toevoeging. De Criticus kijkt constant mee.
- Plan: "Ik ga de pot vullen."
- Actie: DAVIS voert het uit.
- Criticus: "Wacht! De pot is gebroken, er loopt water op de grond. Dat had je niet verwacht!"
- Reactie: De Criticus zegt: "Stop! We moeten het plan aanpassen." In plaats van blind door te gaan, stopt DAVIS, denkt na en maakt een nieuw plan.

4. Waarom is dit zo goed?

De onderzoekers hebben DAVIS getest in een virtueel laboratorium genaamd ScienceWorld. Het moest taken uitvoeren in 9 verschillende vakken (zoals biologie, chemie en natuurkunde).

Het resultaat? DAVIS was beter dan alle andere robots in 8 van de 9 vakken.

Vergelijking: Stel je voor dat je een puzzel moet leggen. Andere robots legden stukjes neer tot ze toevallig goed zaten (veel fouten, veel tijd). DAVIS keek eerst naar de randen, onthield welke stukjes hij al had geprobeerd, en besprak met zichzelf welke stukjes logisch bij elkaar hoorden voordat hij ze neerlegde.

5. De Korte Nadeel (De Prijs van Slimheid)

Er is één klein nadeel. Omdat DAVIS zo veel nadenkt, praat en zijn dossierkast doorzoekt, kost het veel rekenkracht.

Analogie: Het is alsof je een auto hebt die niet alleen rijdt, maar ook elke seconde een expert inhuurt om de route te plannen, de weg te controleren en de passagiers te adviseren. Dat is heel veilig en slim, maar het kost wel veel benzine (of in dit geval: geld voor computerkracht).

Conclusie

DAVIS is een grote stap vooruit. Het is de eerste AI die niet alleen "raadt" wat hij moet doen, maar plaatst wat hij doet door actief met zijn eigen geheugen te praten. Het is als een wetenschapper die niet alleen werkt, maar ook een dagboek bijhoudt, zijn fouten analyseert en zijn plan aanpast voordat hij iets kapot maakt.

Dit maakt DAVIS niet alleen slimmer, maar ook veiliger en betrouwbaarder voor complexe taken in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het ontwerpen van een algemeen wetenschappelijk agent die taken in laboratoriumomgevingen kan uitvoeren om onderzoekers te ondersteunen, is een belangrijke doelstelling in de huidige AI-onderzoek. Wetenschappelijke taken zijn echter fundamenteel anders dan alledaagse taken: ze zijn kwetsbaarder, complexer en vereisen een hoger niveau van redeneervermogen, een gestructureerd en temporair begrip van de omgeving, en een sterke nadruk op veiligheid.

Bestaande benaderingen, zoals Reinforcement Learning (RL) en traditionele Retrieval-Augmented Generation (RAG) systemen, hebben moeite met deze eisen:

RL lijdt vaak aan inefficiëntie in het gebruik van data, beperkte generalisatie en slechte interpreteerbaarheid.
LLM-agenten (zoals ReAct of SayCan) missen vaak robuust geheugen voor langetermijnleren, wat leidt tot hallucinaties en stochasticiteit in planning.
Bestaande RAG-systemen (zoals Reflexion of RAP) gebruiken ongestructureerde vector-databases. Deze kunnen geen multi-hop redenering of causaal begrip ondersteunen omdat ze statische informatie ophalen in plaats van interactief en iteratief te zoeken. Ze missen ook de mogelijkheid tot temporair modelleren en dynamische aanpassing.

Mensen lossen dit op door actief na te denken, vragen te stellen en hun kennis te verfijnen via interne dialogen ("inner monologue"). DAVIS probeert dit menselijke cognitieproces na te bootsen.

Methodologie: DAVIS

DAVIS is een agent die gebruikmaakt van modelgebaseerde planning binnen een tekstuele omgeving, geformuleerd als een Deels Waarneembare Markov Besluitproces (POMDP). De architectuur bestaat uit drie kerncomponenten:

World Model (WM) als Temporeel Kennisgrafiek (TKG):
- In plaats van een statische database, gebruikt DAVIS een dynamische Temporele Kennisgrafiek.
- Deze grafiek wordt opgebouwd door interacties tussen de agent en de omgeving te analyseren (observaties, acties, nieuwe observaties) met behulp van een Large Language Model (LLM) en Stanford CoreNLP voor coreferentie-oplossing.
- De TKG slaat entiteiten, relaties en tijdstempels op, waardoor de agent causale en temporale redeneringen kan uitvoeren (bijv. "wat gebeurt er na X minuten?").
Interactieve Retrieval met "Inner Monologue":
- Dit is het meest innovatieve aspect. DAVIS voert een iteratief gesprek met zijn eigen World Model om kennislacunes op te vullen voordat hij handelt.
- Het proces omvat het opeenvolgend opvragen van relevante subgrafieken, het herschikken van informatie op basis van tijdstempels en het samenvatten van deze sequenties door een LLM.
- Dit creëert een "inner monologue" ( $M_t$ ) die de beleidskeuze ( $\pi$ ), het transitie-model ( $\hat{T}$ ) en het beloning-model ( $\hat{R}$ ) verrijkt met context en historische ervaringen.
Actor-Critic Architectuur:
- Actor: Vertaalt hoogwaardige plannen van het World Model naar uitvoerbare commando's in de omgeving.
- Critic: Vergelijkt de verwachte uitkomsten (gebaseerd op het plan en de TKG) met de daadwerkelijke observaties in de omgeving.
- Als er een afwijking is (bijv. een apparaat is kapot), activeert de Critic een herplanning (replanning) en update de reflectielijst ( $R_t$ ) voor toekomstige taken. Dit zorgt voor robuustheid onder onvolledige waarneembaarheid.

Belangrijkste Bijdragen

DAVIS Framework: Introductie van een agentisch redeneerkader dat multi-turn retrieval en zelfreflectie combineert om besluitvorming te verbeteren.
Gestructureerd Geheugen: Het gebruik van een gestructureerde, temporale kennisgrafiek in plaats van ongestructureerde vectoren, wat multi-hop redenering en causaal begrip mogelijk maakt.
Interactieve Retrieval: DAVIS is de eerste RAG-agent die een interactieve, multi-turn ophaalmethode gebruikt binnen een RAG-pijplijn, wat dynamische aanpassing mogelijk maakt.
Empirische Validatie: Uitgebreide evaluatie op wetenschappelijke benchmarks en multi-hop vraag-antwoord datasets.

Resultaten

De prestaties van DAVIS zijn getest op twee hoofdbenchmarks:

ScienceWorld Benchmark:
- DAVIS presteerde aanzienlijk beter dan state-of-the-art baselines (SayCan, ReAct, Reflexion, RAP) op 8 van de 9 basisschoolwetenschapsvakken.
- De gemiddelde score was 65,06, wat ongeveer 1,8 keer hoger is dan de concurrenten.
- DAVIS convergeerde sneller naar de uiteindelijke score (minder stappen nodig) en toonde een betere kennisoverdracht tussen verschillende variaties van dezelfde taak.
- Ablatie-studies toonden aan dat zowel het World Model (voor temporale gronding) als de Actor-Critic componenten (voor gestructureerde uitvoering en foutopsporing) essentieel zijn voor succes. Zonder WM daalde de prestatie drastisch, vooral bij complexe, langdurige taken.
Multi-hop Vraag-antwoord (HotpotQA & MusiqueQA):
- Het World Model van DAVIS behaalde concurrerende resultaten op deze bekende datasets, met een F1-score van 73,8 op HotpotQA.
- Hoewel het niet de absolute top bereikte (HOLMES scoorde iets hoger), benadrukt dit dat de architectuur van DAVIS goed generaliseert naar complexe redeneertaken die relationeel begrip vereisen.

Betekenis en Toekomstperspectief

DAVIS vertegenwoordigt een verschuiving van statische retrieval naar dynamische, interactieve redenering in AI-agenten. De belangrijkste implicaties zijn:

Veiligheid en Interpreteerbaarheid: Door plannen te maken en te valideren voordat ze worden uitgevoerd (via de inner monologue en critic), is het beslissingsproces transparanter dan bij traditionele RL-agenten. Dit is cruciaal voor veiligheidskritieke domeinen zoals wetenschappelijk onderzoek.
Generalisatie: De combinatie van gestructureerd geheugen en iteratief redeneren stelt de agent in staat om zich aan te passen aan nieuwe scenario's en onbekende vaardigheden, iets waar statische systemen moeite mee hebben.
Beperkingen: Het paper erkent dat de huidige implementatie hoge operationele kosten heeft (door het gebruik van grote LLMs) en gevoelig is voor veranderingen in de onderliggende modellen. Toekomstig werk richt zich op het distilleren van deze architectuur naar kleinere, open-source modellen en het uitbreiden naar multimodale omgevingen (visuele/sensorische input).

Kortom, DAVIS biedt een veelbelovende route naar autonome wetenschappelijke agenten die niet alleen kunnen handelen, maar ook begrijpen, plannen en leren van hun ervaringen in complexe, veranderende omgevingen.

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

1. Het Probleem: De "Blindvliegende" Robot

2. De Oplossing: DAVIS met een "Innerlijk Gesprek"

3. De Drie Delen van DAVIS

4. Waarom is dit zo goed?

5. De Korte Nadeel (De Prijs van Slimheid)

Conclusie

Probleemstelling

Methodologie: DAVIS

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Enhancing Lexicon-Based Text Embeddings with Large Language Models