Multimodal Large Language Models as Image Classifiers

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 의 분류 성능 저하가 모델 자체의 결함이 아니라 노이즈가 있는 라벨과 결함 있는 평가 프로토콜에서 비롯된 것이며, 이를 교정하면 기존 지도 학습 모델과의 격차가 크게 줄어들고 인간 어노테이터의 지원 도구로도 활용 가능함을 입증합니다.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"멀티모달 대형 언어 모델 (MLLM)"**이라는 최신 AI 들이 이미지를 분류하는 능력을 평가할 때, 우리가 그동안 잘못 알고 있던 점들을 바로잡고 더 공정하게 측정하는 방법을 제시한 연구입니다.

비유하자면, 이 논문은 **"AI 가 시험을 볼 때, 문제지 (데이터) 가 엉망이었고, 채점 규칙 (평가 방법) 도 잘못되어 있어서 AI 의 실력을 제대로 알 수 없었다"**는 것을 발견하고, **"진짜 실력을 알 수 있도록 문제지를 고치고 채점 방식을 바꿨다"**는 이야기입니다.

주요 내용을 쉽게 풀어서 설명해 드릴게요.


1. 왜 이 연구가 필요했을까? (기존의 문제점)

지금까지 AI 의 이미지 분류 능력을 평가할 때 두 가지 큰 문제가 있었습니다.

  • 문제 1: 엉터리 정답지 (Ground Truth의 결함)

    • 기존에 쓰이던 'ImageNet'이라는 데이터셋은 AI 가 학습하고 시험을 보는 데 쓰이는 '정답지' 역할을 했습니다. 하지만 이 정답지가 너무 오래되어서 정답이 틀린 경우가 많았거나, 한 사진에 여러 가지 사물이 섞여 있어 정답이 하나로 정해지지 않는 경우가 많았습니다.
    • 비유: 마치 "사과 사진"을 보여주고 정답을 고르게 하는데, 정답지가 "배"라고 적혀 있거나, "사과와 오렌지가 섞인 사진"인데 정답이 "사과"라고만 되어 있는 상황입니다. AI 가 "아, 이건 사과야!"라고 말해도 채점자가 "아니야, 정답은 배야"라고 틀렸다고 표시하는 꼴입니다.
  • 문제 2: 편파적인 시험 방식 (평가 프로토콜의 문제)

    • AI 에게 시험을 볼 때, **정답을 미리 알려주고 고르라고 하는 방식 (다지선다형)**을 많이 썼습니다. 하지만 이 방식은 AI 가 진짜로 사물을 잘 구분하는지, 아니면 단순히 "나쁜 보기 (오답) 들이 너무 쉬워서" 찍어서 맞히는 건지 구분하기 어렵게 만들었습니다.
    • 또한, AI 가 정답 목록에 없는 말을 했을 때 (예: 정답이 '강아지'인데 AI 가 '포메라니안'이라고 말함) 를 무조건 틀린 것으로 처리하기도 했습니다.

2. 연구팀이 한 일 (해결책)

연구팀은 이 문제를 해결하기 위해 세 가지 큰 작업을 했습니다.

① 정답지를 다시 고침 (ReGT: 재주석)

  • ImageNet 의 625 개 카테고리 (약 3 만 장의 이미지) 를 전문가들이 다시 꼼꼼히 확인했습니다.
  • 결과: AI 들이 기존 정답지를 보고 "틀렸다"고 생각했던 많은 경우가, 사실은 정답지가 잘못되었기 때문이라는 것을 발견했습니다.
  • 효과: 정답지를 고치니, AI 들의 점수가 평균 최대 10.8% 까지 급상승했습니다. 특히 기존에 "AI 는 supervised(지도학습) 모델보다 못한다"고 알려졌던 격차가 거의 반으로 줄었습니다.

② 시험 방식을 다양하게 바꿈 (OW, MC, CW+)

  • Open-World (OW): 정답 목록 없이 AI 가 자유롭게 답을 말하게 합니다. (예: "이건 뭐야?"라고 물으면 AI 가 "고양이"라고 답함)
  • Multiple-Choice (MC): 보기 4 개 중 하나를 고르게 합니다. (기존 방식)
  • Closed-World+ (CW+): 정답 목록을 모두 보여주지만, AI 가 목록에 없는 말을 해도 가장 비슷한 정답으로 자동 매핑해 주는 새로운 방식을 도입했습니다.
    • 비유: AI 가 "포메라니안"이라고 말했을 때, "목록에 없으니 틀렸다"고 하지 않고, "아, 포메라니안은 강아지 종류니까 '강아지'로 인정해 주자"고 하는 것입니다.

③ AI 가 인간을 도와주는지 확인함

  • 연구팀은 인간 annotator(데이터 라벨링 작업자) 들에게 AI 가 틀린다고 지적한 이미지들을 다시 확인하게 했습니다.
  • 결과: 어려운 경우의 약 **50%**에서 인간 작업자들이 "AI 가 맞았어, 우리 정답이 틀렸구나"라고 인정했습니다. 즉, AI 가 인간의 실수를 찾아내는 훌륭한 보조 도구가 될 수 있다는 것을 증명했습니다.

3. 주요 발견 (인사이트)

  • AI 는 정답지가 깨끗해지면 훨씬 잘한다: AI 들은 인간이 만든 '지저분한 정답지'에 너무 의존하지 않고, 사실은 사물을 잘 보고 있었습니다. 정답지를 정리해주니 실력이 확 올라갔습니다.
  • 학습 방식에 따른 차이: 기존에 많은 데이터를 보고 학습한 '지도학습 모델'은 정답지가 바뀌어도 점수 변화가 적었습니다. 반면, 새로운 방식 (MLLM) 은 정답지가 고쳐지면 점수가 크게 오르는 등 데이터의 품질에 매우 민감했습니다.
  • 시험 방식이 점수를 왜곡함: 보기 (distractor) 를 어떻게 고르느냐에 따라 AI 의 점수가 10~15% 까지 달라질 수 있었습니다. 즉, "어떤 시험을 치르게 하느냐"에 따라 AI 의 능력이 다르게 평가받을 수 있다는 경고입니다.

4. 결론: 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 가 못한다고 단정하기 전에, 우리가 만든 시험지와 채점 기준부터 다시 봐야 한다"**고 말합니다.

  • 과거의 시각: "AI 는 전문적인 이미지 분류를 못하니까 아직 실용화하기 어렵다."
  • 이 논문의 시각: "아니야, AI 는 사실 잘하는데, 우리가 엉터리 정답지로 시험을 보게 하고, 너무 쉬운 시험지를 줬거나, AI 의 정답을 제대로 인정해주지 않아서 점수가 낮게 나온 거야. 정답지를 고치고 공정한 시험을 치르면 AI 는 이미 인간과 비슷한 수준, 혹은 그 이상으로 뛰어날 수 있어."

한 줄 요약:

"AI 의 실력을 평가할 때, AI 가 못해서가 아니라 우리가 만든 '정답지'와 '시험 방식'이 문제였음을 밝혀냈고, 이를 바로잡으니 AI 의 잠재력이 훨씬 더 빛을 발한다는 것을 증명했습니다."

이 연구는 앞으로 더 깨끗한 데이터셋과 공정한 평가 기준이 필요함을 강조하며, AI 가 인간의 데이터 정리 작업을 도와주는 '동료'가 될 수 있음을 보여줍니다.