Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
Ce papier présente HarmonicEval, une métrique d'évaluation automatique sans référence capable d'agréger des scores par critère pour évaluer plusieurs tâches multimodales, et introduit le benchmark MMHE basé sur 18 000 jugements humains pour valider la généralisabilité de cette approche.