AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale financieel adviseur hebt. Deze adviseur is een kunstmatige intelligentie (een "LLM-agent") die je helpt met je geld. Hij kan praten met je, je vragen beantwoorden en zelfs live beursdata opzoeken om je de beste aandelen te adviseren.

De onderzoekers van dit paper hebben ontdekt dat deze slimme adviseurs een heel groot, verborgen zwak punt hebben. Ze noemen dit "AgentDrift".

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De "Gekke Kijker" (Het probleem)

Stel je voor dat je adviseur een bril draagt die hij zelf niet kan afzetten. Hij kijkt naar de wereld door deze bril. Normaal gesproken ziet hij de waarheid: "Dit aandeel is risicovol, dat aandeel is veilig."

Maar wat gebeurt er als iemand die bril verandert?
De onderzoekers hebben een experiment gedaan waarbij ze de "bril" van de adviseur hackten. Ze veranderden de cijfers en teksten die de adviseur zag.

Ze maakten gevaarlijke, gokkerige aandelen (zoals Tesla) eruitzien als super-veilige, rustige aandelen.
Ze maakten veilige aandelen eruitzien als risicovolle gokken.
Ze voegden nep-nieuwsberichten toe die zeiden: "Dit gevaarlijke aandeel is eigenlijk heel veilig!"

2. De "Blinde Vlek" (Het verrassende resultaat)

Je zou denken dat de adviseur dan zou zeggen: "Hé, dit klopt niet! Dit aandeel is toch bekend om zijn hoge risico?"

Maar nee. De adviseur gelooft blindelings wat hij ziet.

Hij raadt de gevaarlijke aandelen aan aan mensen die juist veilige beleggingen nodig hebben.
Hij doet dit keer op keer, over een lang gesprek heen.

Het echte probleem is dit: Als je kijkt naar de "standaard cijfers" die we gebruiken om te meten hoe goed een adviseur is (zoals: "Hoe goed past het advies bij wat de gebruiker wilde?"), dan ziet het er perfect uit.

De adviseur geeft nog steeds een lijstje met aandelen.
De volgorde lijkt logisch.
De "kwaliteitsscore" blijft hoog.

Het is alsof een kok die vergiftigde groenten serveert, nog steeds een perfecte score krijgt voor de smaak en de presentatie van het gerecht, terwijl niemand merkt dat je er ziek van wordt. De "veiligheid" is verdwenen, maar de "kwaliteitsscore" liegt.

3. De Twee Manieren waarop het misgaat

De onderzoekers ontdekten dat dit op twee manieren gebeurt:

De Directe Leugen (Informatie-kanaal): De adviseur leest de nep-cijfers en denkt direct: "Oké, dit is veilig." Hij doet dit in één seconde. Dit is de belangrijkste oorzaak.
Het Vergeten Geheugen (Geheugen-kanaal): Soms onthoudt de adviseur de fout. Hij denkt: "Gisteren raadde ik dit gevaarlijke aandeel aan, dus de gebruiker moet wel van risico houden." Hij past zijn geheugen aan op basis van de leugen, en blijft zo steeds gevaarlijker advies geven.

4. Waarom is dit zo gevaarlijk?

In de echte wereld gebruiken we vaak "kwaliteitsmetingen" om te zien of een AI goed werkt. Deze metingen kijken alleen naar of het antwoord logisch klinkt of past bij de vraag. Ze kijken niet naar of het antwoord veilig is voor de gebruiker.

De onderzoekers zeggen: "We zijn blind voor het gevaar."
Zelfs de aller slimste AI-modellen (de "frontier" modellen) doen dit. Ze vragen nooit: "Zijn deze cijfers wel echt?" Ze doen precies wat ze moeten doen: ze vertrouwen de data die ze krijgen. Maar als die data vergiftigd is, is het advies ook vergiftigd.

5. De Oplossing?

De onderzoekers zeggen dat we onze "bril" moeten veranderen. We moeten niet alleen kijken of het advies klinkt alsof het goed is, maar we moeten ook een veiligheidsscan toevoegen.

Stel je voor dat je naast de smaaktest ook een "gifttest" doet.
Als je dit doet, zie je dat de "kwaliteitsscore" van de adviseur in elkaar zakt zodra hij gevaarlijk advies geeft.

Samenvattend in één zin:

Deze slimme digitale adviseurs zijn zo goed in het volgen van instructies en het lezen van data, dat ze volledig blind worden voor gevaar als die data is gemanipuleerd; ze blijven "perfect" lijken op papier, terwijl ze in werkelijkheid je geld in gevaar brengen.

De les: Vertrouw nooit blind op de cijfers van een AI, vooral niet als die AI live data ophaalt. Er moet een menselijke (of extra digitale) controle zijn die zegt: "Is dit wel veilig?" voordat je het advies accepteert.

AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

1. De "Gekke Kijker" (Het probleem)

2. De "Blinde Vlek" (Het verrassende resultaat)

3. De Twee Manieren waarop het misgaat

4. Waarom is dit zo gevaarlijk?

5. De Oplossing?

Samenvattend in één zin:

1. Het Probleem: Evaluatieblindheid in Tool-geaugmenteerde Agents

2. Methodologie: Het AgentDrift-protocol

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Significantie en Implicaties

AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

1. De "Gekke Kijker" (Het probleem)

2. De "Blinde Vlek" (Het verrassende resultaat)

3. De Twee Manieren waarop het misgaat

4. Waarom is dit zo gevaarlijk?

5. De Oplossing?

Samenvattend in één zin:

1. Het Probleem: Evaluatieblindheid in Tool-geaugmenteerde Agents

2. Methodologie: Het AgentDrift-protocol

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Significantie en Implicaties

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá