Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Dit onderzoek onthult dat grote taalmodellen morele redenering vaak boven gezond verstand plaatsen en een vooroordelen vertonen waarbij ze tegenstrijdigheden in gezond verstand makkelijker herkennen bij secundaire personages dan bij de hoofdpersoon, wat wijst op de noodzaak van verbeterde trainingsmethoden.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alles weet over de wereld. Hij kan prachtige verhalen vertellen, gedichten schrijven en zelfs advies geven over moeilijke levensvragen. Maar er is een klein, maar heel belangrijk probleem: deze robot is soms zo bang om iets "slecht" of "onfatsoenlijk" te zeggen, dat hij vergeet hoe de wereld echt werkt.

Dit is precies wat de onderzoekers in dit paper hebben ontdekt. Hier is het verhaal, vertaald naar gewoon Nederlands met wat leuke vergelijkingen.

De Hoofdprobleem: De "Morele Bril"

Stel je voor dat de robot een bril op heeft die alleen maar naar morele regels kijkt (goed vs. slecht, eerlijk vs. oneerlijk). Deze bril is zo fel opgelicht dat hij de gezonde verstand-regels (wat is fysiek mogelijk? wat is logisch?) volledig over het hoofd ziet.

De onderzoekers noemen dit een "morele blindheid". Als de robot een vraag krijgt die klinkt als een moreel dilemma, schakelt hij direct in op "hoe moet ik dit ethisch correct beantwoorden?" en vergeet hij te vragen: "Maar klopt dit verhaal wel?"

De Test: CoMoral (De "Tegenstrijdigheidstest")

Om dit te testen, hebben de onderzoekers een nieuwe test gemaakt, genaamd CoMoral.
Stel je een verhaal voor waarin iemand zegt: "Ik zit in mijn tuin onder het licht van de nieuwe maan."

  • Gezond verstand: Een nieuwe maan is donker. Er is geen maanlicht. Dit is onmogelijk.
  • De robot: Als je de robot gewoon vraagt: "Wat vind je van dit verhaal?", zegt hij vaak: "Wat een prachtig, vredig tafereel!" Hij negeert de onmogelijkheid omdat hij zich richt op de sfeer en de moraal (het is een mooi verhaal).

Maar als je de robot specifiek vraagt: "Kijk eens of er iets raars of onlogisch is in dit verhaal," dan zegt hij: "Oh, wacht even! Er is geen maanlicht bij een nieuwe maan!"

De les: De robot kan het zien, maar hij doet het niet vanzelf. Hij moet eerst worden "gewaarschuwd" om zijn morele bril even af te zetten en naar de feiten te kijken.

Het Grappige Verschil: De "Hoofdrolspeler" vs. De "Bijrol"

Hier wordt het nog interessanter. De onderzoekers keken naar twee soorten verhalen:

  1. Verhaal A: De verteller (ik) zit in de tuin en ziet de onmogelijke maan.
  2. Verhaal B: Een tante (iemand anders) zit in de tuin en ziet de onmogelijke maan.

Het resultaat was verrassend:

  • Als de verteller (de hoofdpersoon) de fout maakt, ziet de robot het bijna nooit. Hij denkt: "De verteller is de hoofdpersoon, dus wat hij zegt moet wel waar zijn." Het is alsof de robot de verteller blindelings vertrouwt, alsof hij een koning is die nooit liegt.
  • Als de tante (een bijrol) de fout maakt, ziet de robot het direct! "Oh, die tante heeft het mis!"

Dit noemen ze de "Vertel-vooroordeel" (Narrative Focus Bias). De robot is zo gefocust op de hoofdpersoon dat hij zijn kritische denkvermogen uitschakelt voor die persoon, maar wel aanhoudt voor iedereen anders. Het is alsof je in een film de hoofdrolspeler nooit zou verdenken van een leugen, maar wel van de personages op de achtergrond.

Waarom is dit belangrijk?

Je zou kunnen denken: "Ach, het is maar een klein foutje over de maan." Maar stel je voor dat deze robot een therapeut is of een juridisch adviseur.

  • Als een patiënt zegt: "Ik heb gisteren een auto gestolen om mijn moeder te redden, maar ik heb de auto gereden door een muur," en de robot negeert het "door de muur rijden" omdat hij zich te veel richt op het morele dilemma (redden vs. stelen), dan is hij niet echt behulpzaam. Hij mist de realiteit.

De Conclusie in Eén Zin

Deze robots zijn heel goed in het volgen van regels en het zijn "goede jongens", maar ze moeten leren om eerst te kijken of het verhaal logisch is, voordat ze gaan oordelen over wat goed of slecht is. En ze moeten leren om niet blindelings te vertrouwen op wat de hoofdpersoon zegt, maar om kritisch te blijven voor iedereen.

Kortom: We moeten de robots leren om hun "morele bril" af en toe even af te zetten, zodat ze niet vergeten dat de zon niet in het westen opkomt en dat er geen maanlicht is bij een nieuwe maan.