MM-tau-p: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings
Il paper propone MM-tau-p², un nuovo benchmark con 12 metriche innovative per valutare in modo olistico e automatizzato la robustezza degli agenti multi-modali basati su LLM in ambienti a doppio controllo, considerando l'adattamento alla personalità dell'utente e le sfide specifiche dei settori telecomunicazioni e retail.