Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Deze keynote op ECIR 2025 belicht het onderzoek naar de interactie tussen parametrische en contextuele kennis in taalmodellen, met name gericht op het diagnosticeren van kennisconflicten en het begrijpen van hoe modellen context integreren of negeren.

Isabelle Augenstein

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Grote Raadsel van de AI: Waarom Luistert de Computer soms niet naar de Nieuwsbrief?

Stel je voor dat een Large Language Model (een slimme AI) een enorme, onuitputtelijke herinneringskast heeft. Alles wat het ooit heeft gelezen tijdens zijn opleiding zit daar vastgezet in de muren van die kast. Dit noemen onderzoekers parametrische kennis. Het is als het geheugen van een persoon die alles uit zijn hoofd kent.

Maar er is een probleem: soms is die herinnering verouderd, soms is hij gewoon fout, en soms is hij zelfs in strijd met elkaar. Als je de AI vraagt: "Wie is de president van Frankrijk?" en je geeft hem een krant van gisteren die zegt dat er een nieuwe president is, wat doet de AI dan? Luistert hij naar de krant (de context), of blijft hij vasthouden aan wat hij in zijn hoofd heeft?

Dit is waar Isabelle Augenstein, de spreker in dit artikel, over praat. Ze onderzoekt precies hoe deze twee krachten – het geheugen in de hersenen versus de informatie die je net voorleest – met elkaar vechten.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Geheugen is niet altijd te vertrouwen

Stel je voor dat je AI een student is die heeft gestudeerd voor een examen. Hij heeft alle antwoorden in zijn hoofd. Maar wat als hij een fout heeft gemaakt in zijn studiemateriaal? Of wat als hij een antwoord heeft geleerd dat nu alweer verouderd is?

  • Het probleem: Als je de AI probeert te corrigeren door hem te laten herschrijven (retrainen), is dat net als de hele school opnieuw te bouwen. Dat kost een fortuin en tijd.
  • De oplossing: We proberen de AI te laten kijken naar extra informatie (zoals een zoekmachine) terwijl hij antwoordt. Dit heet RAG (Retrieval-Augmented Generation). Het is alsof je de student een naslagwerk geeft tijdens het examen.

2. De "Luister-Test": Wanneer negeert de AI de naslag?

Hier wordt het interessant. De onderzoekers ontdekten iets verrassends:

  • Statische feiten: Als je de AI vertelt: "De hoofdstad van Japan is Stockholm" (wat natuurlijk fout is), en je geeft hem een tekst die zegt "Nee, het is Tokio", dan luistert de AI vaak niet. Hij blijft vasthouden aan zijn eigen, foutieve geheugen. Het is alsof de student zegt: "Ik weet het beter, ik heb het in mijn hoofd!"
  • Dynamische feiten: Als je het hebt over iets dat vaak verandert (zoals het weer of een sportuitslag), dan luistert de AI juist wel naar de nieuwe tekst.
  • De les: De AI is eigenwijs. Hij negeert nieuwe informatie juist het meest als hij denkt dat hij het al "weet", zelfs als hij het verkeerd weet.

3. De "Herinnerings-Conflicten"

Soms is de verwarring niet alleen tussen de AI en de tekst, maar binnen de AI zelf.
Stel je voor dat de AI tijdens zijn opleiding twee verschillende boeken heeft gelezen. In het ene boek staat: "De aarde is rond." In het andere (een oud sprookjesboek) staat: "De aarde is plat."
Nu heeft de AI beide feiten in zijn geheugen. Als je hem nu vraagt wat de waarheid is, wordt hij onzeker. De onderzoekers noemen dit intra-memory conflict (conflict binnen het geheugen). Ze hebben een manier bedacht om te meten hoe onzeker de AI is door te kijken hoe warrig zijn antwoorden zijn.

4. De "Realiteitscheck" met DRUID

Veel onderzoekers gebruiken kunstmatige data om te testen hoe goed AI werkt. Het is alsof je een piloot test in een virtuele simulator met perfecte weersomstandigheden. Maar in de echte wereld is het weer stormachtig.
De onderzoekers hebben een nieuwe dataset gemaakt genaamd DRUID. Dit is een verzameling van echte feitencontroles uit de echte wereld.

  • Wat vonden ze? In de simulator (kunstmatige data) leek het alsof AI heel goed kon omgaan met tegenstrijdige informatie. In de echte wereld (DRUID) bleek dat niet zo te zijn.
  • De verrassing: De AI luistert het liefst naar bronnen die duidelijk en assertief klinken. Als een tekst zegt "Dit is 100% waar!", dan gelooft de AI het sneller dan als een tekst zegt "Misschien is het wel waar, maar...". De AI houdt van zelfverzekerdheid, zelfs als die zelfverzekerdheid vals is.

5. Conclusie: De AI klimt een spiraal op

De kernboodschap van dit artikel is dat we nog lang niet begrijpen hoe deze slimme machines precies denken.

  • Ze zijn goed in het opzeggen van wat ze hebben geleerd, maar slecht in het redeneren.
  • Ze negeert nieuwe informatie als ze denkt dat ze het al weet.
  • Ze is gevoelig voor hoe een tekst klinkt (assertief vs. twijfelend).

De spreker sluit af met een mooie quote van Karen Spärck Jones (een legende in de vakgebied):

"Oude ideeën verschijnen in nieuwe vermommingen. Maar de nieuwe kostuums zijn beter gemaakt. Het is niet alsof we in cirkels lopen, maar alsof we een spiraal beklimmen."

Kortom: We leren elke dag iets nieuws over hoe we deze digitale hersenen moeten sturen, maar we moeten oppassen dat we niet denken dat ze slimmer zijn dan ze zijn. Soms moeten we ze gewoon dwingen om naar de krant te kijken in plaats van naar hun eigen geheugen.