Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "한 가지 잣대로 모든 것을 재면 안 된다"

지금까지 AI 가 만든 글 (예: 사진 설명, 질문에 대한 답변 등) 을 평가할 때는 주로 하나의 점수만 매겼습니다. 마치 학교 시험에서 "국어 100 점, 수학 50 점"을 따로 보지 않고, 그냥 "총점 150 점"만 보고 학생을 판단하는 것과 비슷합니다.

  • 상황: 사진에 대한 설명을 쓰는 AI 와, 그림을 보고 질문에 답하는 AI 는 서로 다른 능력을 요구받습니다.
    • 사진 설명 (Image Captioning): 사진의 모든 디테일을 빠뜨리지 않고 완벽하게 (Completeness) 묘사하는 게 중요합니다.
    • 질문 답변 (VQA): 길고 긴 설명보다는 정확하고 (Correctness) 간결하게 (Conciseness) 답하는 게 중요합니다.

기존의 문제:
기존 평가 도구들은 "사진 설명"을 잘 평가하도록 훈련되어 있어서, "완벽함"을 최우선으로 여깁니다. 그런데 이 도구를 "질문 답변" 평가에 쓰면, AI 가 길고 지루하게 설명을 늘어놓아도 "완벽하네!"라며 높은 점수를 줍니다. 역할이 다른 학생에게 같은 시험지를 주고 같은 채점 기준을 적용하는 꼴이 된 것입니다.

2. 해결책: "하모닉 평가 (HarmonicEval)"라는 새로운 채점 시스템

저자들은 이 문제를 해결하기 위해 **하모닉 평가 (HarmonicEval)**라는 새로운 시스템을 만들었습니다. 이 시스템은 두 가지 핵심 아이디어를 사용합니다.

A. 5 가지 세부 항목별 채점 (Criterion-wise Scoring)

이 시스템은 AI 가 쓴 글 하나를 볼 때, 한 번에 "좋다/나쁘다"가 아니라 5 가지 세부 항목을 따로따로 봅니다.

  1. 정확성 (Correctness): 내용이 사실과 맞나요?
  2. 완벽함 (Completeness): 중요한 내용이 빠졌나요?
  3. 명확성 (Clarity): 읽기 쉽나요?
  4. 유창함 (Fluency): 문장이 매끄러운가요?
  5. 간결함 (Conciseness): 불필요한 말이 없나요?

비유:
요리사를 평가할 때, "맛있다/맛없다" 하나로 끝내지 않고, 신선도, 간, 조리법, 플레이팅, 가격을 따로 점수 매기는 것과 같습니다.

B. 지능적인 점수 합산 (Harmonic Weighting)

각 항목의 점수를 어떻게 합쳐서 최종 점수를 낼까요? 단순히 5 개를 더해서 나누는 (평균) 게 아닙니다.

  • 아이디어: AI 가 어떤 항목을 평가할 때 "내가 확신한다"라고 느끼는지, 아니면 "좀 애매하네"라고 느끼는지를 통계적으로 분석합니다.
  • 작동 원리:
    • AI 가 "정확성"을 평가할 때 매우 확신한다면 (통계적 변동이 작다면), 그 점수의 비중을 높입니다.
    • AI 가 "간결함"을 평가할 때 헷갈려서 점수가 들쑥날쑥하다면 (변동이 크다면), 그 점수의 비중을 낮춥니다.
    • 마치 신뢰할 수 있는 전문가의 의견은 더 크게 반영하고, 의견이 분분한 부분은 덜 반영하는 똑똑한 채점 방식입니다.

3. 새로운 시험지: "MMHE" 벤치마크

이 새로운 시스템을 검증하기 위해, 저자들은 MMHE라는 새로운 시험지를 만들었습니다.

  • 규모: 18,000 개의 데이터.
  • 내용: 4 가지 다른 작업 (사진 설명, 질문 답변, 문서 분석, 물체 찾기) 에 대해, 인간 전문가들이 5 가지 항목별로 꼼꼼하게 점수를 매긴 데이터입니다.
  • 의미: 기존에는 "사진 설명"만 평가하는 시험지가 많았지만, 이제는 다양한 상황과 다양한 기준을 모두 아우르는 최초의 종합 평가표입니다.

4. 결과: 왜 이것이 더 좋은가?

실험 결과, 하모닉 평가 시스템은 기존 방법들보다 사람의 판단과 훨씬 더 잘 일치했습니다.

  • 구체적인 피드백: 단순히 "점수 80 점"만 주는 게 아니라, "정확성은 좋지만 문장이 너무 길어서 간결함 점수가 낮습니다"라고 어디가 문제인지 구체적으로 알려줍니다.
  • 유연성: 어떤 작업이든 (사진 설명이든 질문 답변이든) 자동으로 상황에 맞는 채점 기준을 적용합니다.

5. 요약: 한 줄로 정리하면?

"기존의 AI 평가는 '한 가지 잣대'로 모든 것을 재서 부당했는데, 우리는 '5 가지 세부 기준'을 따로따로 보고, AI 가 확신하는 부분에는 더 큰 비중을 두는 똑똑한 채점 시스템 (하모닉 평가) 을 만들었습니다. 이를 통해 AI 가 만든 글의 진짜 강점과 약점을 정확하게 찾아낼 수 있게 되었습니다."

이 기술은 앞으로 AI 가 만들어내는 글이 더 정확하고, 읽기 편하며, 상황에 맞는 글을 쓰도록 돕는 나침반이 될 것입니다.