MM-tau-p: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings
O artigo propõe o benchmark MM-tau-p, que introduz 12 novas métricas para avaliar de forma holística e robusta a adaptação de personalidade e a resiliência multimodal de agentes LLM em cenários de controle dual, preenchendo lacunas nas avaliações atuais focadas apenas em chat textual.