Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
Dit paper introduceert HarmonicEval, een referentievrije, meervoudige evaluatiemethode voor Vision-Language Models die criteria-specifieke scores combineert, en presenteert het MMHE-benchmark met 18.000 menselijke beoordelingen om de prestaties van dergelijke methoden in multi-task scenario's te valideren.