MM-tau-p$^2$: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super slimme digitale assistent hebt die je helpt met klusjes, zoals het oplossen van een probleem met je telefoonabonnement of het bestellen van nieuwe kleding. Vroeger konden deze assistenten alleen tekst lezen en typen. Maar nu worden ze steeds meer multimodaal: ze kunnen ook naar je stem luisteren en zelf praten.

Het probleem is: hoe testen we of deze nieuwe, stem-gebaseerde assistenten echt goed zijn? En nog belangrijker: hoe testen we of ze zich kunnen aanpassen aan jou als persoon?

De auteurs van dit paper, Anupam Purwar en Aditya Choudhary, hebben een nieuwe test ontwikkeld genaamd MM-tau-p2. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Assistent

Stel je voor dat je een tolk hebt die alleen tekst kan lezen. Als je zegt: "Ik wil mijn abonnement veranderen," doet hij dat. Maar hij weet niet of je een boze klant bent, een technische expert, of iemand die verlegen is en niet weet wat hij moet zeggen.

Bestaande tests voor AI-agenten kijken alleen naar: "Heeft de AI het probleem opgelost?" Ze negeren twee cruciale dingen:

De stem: Is de AI nog steeds slim als hij je moet verstaan via een slechte telefoonverbinding?
De persoonlijkheid: Past de AI zich aan aan jouw niveau? (Bijvoorbeeld: niet te technisch praten tegen een beginner, maar wel precies zijn tegen een expert).

2. De Oplossing: MM-tau-p2 (De "Twee-Persoonen" Test)

De auteurs hebben een nieuwe testbed (een soort oefenruimte) gebouwd. Ze noemen het een "Dual-Control" setting.

De Vergelijking: Stel je voor dat je een toneelstuk opvoert.
- De AI is de acteur.
- De Menselijke Simulator is de andere acteur die precies doet alsof hij een echte klant is.
- In deze test kan de "klant" (de simulator) de AI uitdagen: "Ik begrijp je niet," "Ik ben boos," of "Ik heb geen idee wat ik moet doen."

De test kijkt niet alleen of de AI het antwoord kent, maar hoe hij reageert op deze uitdagingen.

3. De Drie Manieren om de "Klant" te Simuleren

De test gebruikt drie soorten "klanten" om te zien hoe de AI zich aanpast:

Geen Persona (De Neutrale Klant): Iedereen is hetzelfde. De AI hoeft zich niet aan te passen.
Persona Injectie (De Statische Biografie): De AI krijgt een dossier over de klant: "Deze klant is een expert in telecom." De AI past zich hierop aan.
Context Injectie (De Dynamische Lezing): De AI krijgt geen dossier, maar moet tijdens het gesprek zelf merken: "Oh, deze klant wordt boos en begrijpt technische termen niet." De AI moet zich live aanpassen.

4. De 12 Nieuwe Maatregelen (De Scorekaart)

In plaats van alleen te kijken of de AI "wint" of "verliest", gebruiken ze een gedetailleerde scorekaart met 12 nieuwe regels. Denk hieraan als een rijexamen voor een drone:

Veiligheid (Safety): Als de AI iets gevaarlijks moet doen (zoals een abonnement opzeggen), vraagt hij dan eerst om bevestiging? Of doet hij het zomaar? (Dit is vaak een zwak punt).
Herstelkracht (Recovery): Als de AI een fout maakt (bijvoorbeeld een naam verkeerd verstaan), kan hij zich dan herstellen zonder dat de klant boos wordt?
Efficiëntie: Duurt het gesprek te lang? Moet de klant dingen herhalen?
Robuustheid: Werkt de AI net zo goed als hij via de telefoon spreekt als wanneer hij via tekst chat? (Vaak zakt de prestatie bij stem).

5. De Verassende Resultaten

Wat hebben ze ontdekt?

De "Stem" is lastig: Zelfs de aller slimste AI's (zoals GPT-5) worden slordiger als ze moeten praten en luisteren in plaats van typen. Ze maken meer fouten bij het verstaan van namen of cijfers.
Aanpassen is een tweesnijdend zwaard: Als de AI weet dat de klant een "beginner" is (Persona Injectie), helpt dat soms, maar soms maakt het de AI ook lui of onzeker.
De "Live" aanpassing werkt het beste: De AI die tijdens het gesprek zelf merkt hoe de klant zich voelt (Context Injectie), doet het vaak het beste bij moeilijke gesprekken.
Veiligheid is het grootste probleem: Hoe meer de AI probeert zich aan te passen aan de klant, hoe minder hij oplet op veiligheidsregels. Hij wordt zo'n "vriendelijk" luisteraar dat hij vergeet te vragen: "Weet je zeker dat je dit abonnement wilt opzeggen?"

6. De "Rechter" (LLM-as-Judge)

Omdat er duizenden gesprekken zijn, gebruiken ze een andere AI (een "Rechter") om de gesprekken te beoordelen.

Het probleem: Zelfs deze Rechter is niet perfect. Soms zegt hij: "De AI heeft het probleem opgelost door een mens in te schakelen, dus dat is een winst!" En een andere keer zegt hij: "Nee, dat is een verlies, want de AI kon het niet zelf oplossen."
Dit laat zien dat het heel moeilijk is om AI-evaluatie 100% eerlijk en consistent te maken.

Conclusie

Dit paper zegt eigenlijk: "Stop met alleen kijken of de AI het antwoord heeft. Kijk ook hoe hij het gesprek voert, of hij veilig is, en of hij zich aanpast aan de mens aan de andere kant van de lijn."

Ze hebben een nieuwe meetlat (MM-tau-p2) gemaakt die laat zien dat we nog veel werk hebben voordat onze stem-gebaseerde assistenten net zo betrouwbaar en veilig zijn als een menselijke klantenservice-medewerker. Het is een stap in de goede richting, maar de "veiligheidsrem" van deze AI's moet nog veel strakker.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "MM-tau-p2: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings" in het Nederlands.

Probleemstelling

Huidige evaluatiekaders en benchmarks voor agents die worden aangedreven door Large Language Models (LLM) richten zich voornamelijk op tekstgedreven chatbots. Deze systemen opereren vaak in een "gebruikersonafhankelijke" omgeving, waarbij de agent geen kennis heeft van de persoonlijkheid (persona) van de gebruiker. In het domein van Customer Experience Management (CX) is dit echter een kritiek tekort: het gedrag van een agent moet evolueren naarmate deze meer leert over de persoonlijkheid en het ervaringsniveau van de gebruiker.

Daarnaast worden agents steeds meer multimodaal (integratie van tekst en spraak via TTS/ASR), maar bestaande benchmarks (zoals tau-bench of AgentBench) evalueren deze vaak niet systematisch in een "dual-control" setting. In deze setting hebben zowel de gebruiker als de agent invloed op de dialoog. Bestaande benchmarks modelleren gebruikers vaak als statische bronnen van informatie en negeren de "expert-novice" kloof die inherent is aan klantondersteuning, evenals de impact van spraakruis en persona-adaptatie op de robuustheid van de agent.

Methodologie: MM-tau-p2

De auteurs introduceren MM-tau-p2, een nieuwe benchmark-suite die de robuustheid van multimodale agents evalueert in een dual-control omgeving, met en zonder persona-adaptatie.

1. Benchmark Factoren:
Elke evaluatie wordt gedefinieerd door een tuple van domein, taak, modality, persona en blootstelling.

Domeinen: Telecom en Retail.
Modaliteiten: Alleen tekst vs. Alleen spraak (met ASR-transcriptie en TTS-synthese).
Personas: Drie niveaus: Geen (neutraal), Gemakkelijk (hoge domeinkennis), en Moeilijk (lage kennis, ambiguïteit, misverstanden).
Persona-blootstelling:
- Geen injectie: De agent moet gebruikerskenmerken infereren uit de interactie.
- Persona-injectie: Meta-data over de gebruiker wordt aan de agent gegeven.
- Context-injectie: De agent ontvangt dynamisch gegenereerde persoonlijkheidsprofielen (bijv. technische vaardigheid, frustratieniveau) gebaseerd op de laatste 16 berichten, die elke 3 berichten worden ververst.

2. Dual-Control Protocol:
De gebruiker (gesimuleerd door een "Human-Simulator") kan onvolledige informatie geven, fouten corrigeren of nieuwe constraints introduceren. Dit test of de agent collaboratief kan plannen, verduidelijkende vragen stelt en efficiënt blijft zonder de veiligheid te schenden.

3. Evaluatiemetrics (12 nieuwe metrics):
De auteurs introduceren een uitgebreide set metrics, geëvalueerd via een LLM-as-judge aanpak (met GPT-4.1 en GPT-5 als rechters):

Doelbereiking: Critical Field Accuracy (CFA), ARGA (Goal Achievement ondanks ASR-fouten), Modality Robustness Score (MRS).
Efficiëntie: Turn Efficiency, Turn Overhead (extra rondes door spraak), User Effort Score.
Herstel: Error Recovery Rate, Recovery Turn Count.
Veiligheid: Irreversible Action Safety (bevestiging voor risicovolle acties), Safety Recall.

4. Composite Score (mm-tap):
Om prestaties over verschillende architecturen te vergelijken, wordt een samengestelde score ( $S$ ) voorgesteld die de gewogen som is van CFA, MRS, ARGA, ERR, TE, UES, TO en IAS.

Belangrijkste Resultaten

1. Impact van Modality en Persona:

Spraak vs. Tekst: De introductie van spraak leidt vaak tot degradatie in prestaties (lagere MRS), vooral in het Telecom-domein. Echter, in het Retail-domein is de degradatie minder extreem.
Persona-adaptatie:
- Voor makkelijke gebruikers (experts) werkt eenvoudige persona-injectie goed.
- Voor moeilijke gebruikers (novices) presteert statische persona-injectie slechter dan dynamische context-injectie. Statische personas kunnen de agent verhinderen zich aan te passen aan de veranderende behoeften van de gebruiker tijdens het gesprek.
- Context-injectie (dynamisch) verbetert de Critical Field Accuracy en conversatie-efficiëntie, maar heeft een negatief effect op veiligheidsmetrics.

2. Veiligheid vs. Efficiëntie Trade-off:
Een cruciale bevinding is dat toenemende persona-conditioning (vooral context-injectie) leidt tot een monotoon dalende Safety Precision en Safety Recall. Agents worden efficiënter in het bereiken van doelen, maar negeer vaker noodzakelijke bevestigingen voor onomkeerbare acties (zoals annuleringen of wijzigingen). Dit is een ernstig betrouwbaarheidsprobleem voor productiesystemen.

3. Rol van de LLM-Judge (GPT-4.1 vs. GPT-5):

GPT-5 neigt tot optimisme: het classificeert taken die eindigen in een escalatie naar een menselijke agent vaker als "succesvol" (zolang de agent alles probeerde), terwijl GPT-4.1 dit vaker als falen ziet.
Dit leidt tot significante verschillen in pass-rates (tot 17% verschil in het Telecom-domein).
Er is sprake van inconsistente beoordeling van escalaties: identieke conversaties krijgen soms tegenstrijdige labels, wat labelruis introduceert die correleert met taakmoeilijkheid.

4. Domeinverschillen:

Retail: Taken zijn gestructureerder; spraakproblemen (zoals ASR-fouten bij namen) leiden vaker tot verificatiefouten.
Telecom: Taken zijn complexer en gevoeliger voor ambiguïteit. Agents neigen hier sneller naar escalatie gedrag, wat de conversatiefragiliteit vergroot.

Bijdragen

MM-tau-p2 Benchmark: De eerste benchmark die multimodale robuustheid, persona-adaptief gedrag en planningsefficiëntie in een dual-control setting systematisch evalueert.
12 Nieuwe Metrics: Een holistische set metrics die verder gaat dan alleen "pass/fail", inclusief maatstaven voor spraakruis, gebruikersinspanning en veiligheidsrisico's.
Inzicht in Persona-dynamiek: Het paper demonstreert dat statische persona's niet voldoende zijn voor complexe klantinteracties en dat dynamische context-injectie nodig is, maar dat dit een trade-off met veiligheid met zich meebrengt.
Critische Analyse van LLM-as-Judge: Het paper blootlegt de beperkingen van het gebruik van frontier LLMs als rechters, met name de inconsistentie bij het beoordelen van escalaties en de gevoeligheid voor de keuze van het judge-model (GPT-4.1 vs. GPT-5).

Betekenis en Conclusie

MM-tau-p2 toont aan dat de overstap van tekst-only naar multimodale agents niet triviaal is en dat bestaande benchmarks ontoereikend zijn voor het evalueren van agents in real-world CX-scenario's. De studie benadrukt dat:

Veiligheid vaak op het spel staat wanneer agents worden geoptimaliseerd voor efficiëntie of persona-adaptatie.
Dynamische adaptatie (context-injectie) superieur is aan statische personas voor novice-gebruikers, maar zorgvuldig moet worden gebalanceerd met veiligheidsprotocollen.
Evaluatiekaders moeten rekening houden met de inconsistentie van LLM-rechters en de specifieke uitdagingen van spraak (ASR-ruis, turn-overhead).

De auteurs concluderen dat een holistische evaluatie, zoals geboden door de mm-tap score, noodzakelijk is om de prestaties van multimodale agents betrouwbaar te vergelijken en te verbeteren voor productiedomeinen.

MM-tau-p2^22: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

1. Het Probleem: De "Blinde" Assistent

2. De Oplossing: MM-tau-p2 (De "Twee-Persoonen" Test)

3. De Drie Manieren om de "Klant" te Simuleren

4. De 12 Nieuwe Maatregelen (De Scorekaart)

5. De Verassende Resultaten

6. De "Rechter" (LLM-as-Judge)

Conclusie

Probleemstelling

Methodologie: MM-tau-p2

Belangrijkste Resultaten

Bijdragen

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings