Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.