MM-tau-p: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings
Dit paper introduceert de MM-tau-p²-benchmark, een nieuw evaluatiekader met twaalf nieuwe metrics om de robuustheid van multimodale agenten in dual-control settings te beoordelen, met name in situaties waar persona-adaptatie en gebruikersinput een rol spelen.