GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 논문은 기존 벤치마크의 한계를 지적하고, 구별, 공간, 제한, 거부라는 네 가지 차원에서 MLLM 의 실제 시각적 그라운딩 능력을 평가하는 새로운 벤치마크 'GroundingME'를 제안하며, 이를 통해 현재 모델들의 심각한 성능 격차를 드러내고 개선 방향을 제시합니다.

Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"GroundingME"**라는 새로운 시험지를 만들어, 최신 인공지능 (MLLM) 이 정말로 세상을 '눈'으로 보고 이해하는지, 아니면 단순히 암기나 패턴만 외운 것인지 검증한 연구입니다.

비유를 들어 쉽게 설명해 드릴게요.

1. 문제 상황: "가짜 천재"를 찾아내다

지금까지 인공지능 모델들은 기존 시험지 (벤치마크) 에서 90% 이상을 맞혀 '천재'라고 불렸습니다. 하지만 이 시험지는 너무 쉬웠어요.

  • 기존 시험지: "오른쪽에 있는 꽃병"이라고 하면, 꽃병이 하나뿐이라서 그냥 '꽃병'이라는 단어만 찾으면 됐습니다. (비유: 친구가 "내 옆에 있는 사람"이라고 하면, 옆에 사람이 한 명뿐이라서 아무나 가리키면 맞음)
  • 실제 상황: 복잡한 거리에서 "검은색 코트를 입고, 흰색 벨트는 없으며, 검은 바지를 신은 사람"을 찾으라고 하면, 비슷한 옷을 입은 수많은 사람들 사이에서 정확한 사람을 골라내야 합니다.

인공지능들은 이 복잡한 상황에서는 완전히 망했습니다. 마치 시험지를 외워서 답만 맞히는 학생처럼, 실제 상황에서는 엉뚱한 것을 가리키거나, 아예 없는 물체를 찾으라고 하면 "없다"고 말하지 못하고 엉뚱한 것을 가리켰습니다.

2. 해결책: GroundingME (진짜 실력 시험지)

저자들은 인공지능의 진짜 실력을 보기 위해 GroundingME라는 새로운 시험지를 만들었습니다. 이 시험지는 4 가지 난이도 높은 과제로 구성되어 있습니다.

  1. 구별하기 (Discriminative): "비슷하게 생긴 비행기 3 대 중 가장 오른쪽에 있는 것"처럼, 매우 비슷해 보이는 것들 사이에서 정답을 골라내는 것입니다. (비유: 쌍둥이 중 누가 내 친구인지 구별하기)
  2. 공간 이해 (Spatial): "오른쪽에서 두 번째 탑의 왼쪽에 있는 기와"처럼, 복잡한 위치 관계를 이해하는 것입니다. (비유: 미로 지도를 보고 정확한 위치 찾기)
  3. 제한된 조건 (Limited): "가려진 물체"나 "너무 작아 barely 보이는 물체"를 찾는 것입니다. (비유: 구름 뒤에 살짝 보이는 달이나, 먼 곳의 작은 새 찾기)
  4. 거부하기 (Rejection): 가장 중요한 부분입니다. "화장실에 있는 빨간색 세탁기"라고 물었는데, 실제로는 검은색이거나 없다면, 인공지능은 "없습니다"라고 정직하게 말해야 합니다. 하지만 기존 모델들은 없는 물체도 억지로 찾아내려 했습니다.

3. 충격적인 결과: "천재"는 가짜였다?

이 시험지로 25 개의 최신 인공지능 모델 (Qwen, Gemini, Llama 등) 을 테스트했습니다. 결과는 충격적이었습니다.

  • 최고 성능 모델: 겨우 **45%**만 맞췄습니다. (기존 시험지에서는 90% 이상 맞췄음)
  • 거부 능력: "없는 물체 찾기" 과제는 대부분의 모델이 **0%**를 기록했습니다. 즉, 없는 것을 있다고 우기는 '환각 (Hallucination)' 현상이 심각했습니다.

4. 어떻게 고칠 수 있을까? (두 가지 처방전)

저자들은 이 문제를 해결하기 위해 두 가지 방법을 실험했습니다.

  • 방법 1: 생각의 시간을 늘리기 (Test-Time Scaling)

    • 인공지능에게 바로 답을 내지 말고, **생각하는 과정 (Thinking Trajectory)**을 먼저 적게 했습니다.
    • 마치 학생이 문제를 풀 때, "일단 이 부분은 맞지 않네... 저건 색깔이 다르네..."라고 스스로 논리적으로 검토하게 한 것입니다.
    • 그중에서 가장 논리적인 답을 골라내니 성능이 조금씩 향상되었습니다.
  • 방법 2: '거부'하는 법을 가르치기 (Data-Mixture Training)

    • 인공지능이 "없는 것"을 못 찾는 이유는 훈련 데이터에 "없는 경우"가 없었기 때문입니다.
    • 그래서 **정답이 없는 부정적인 예시 (Negative Samples)**를 훈련 데이터에 섞어서 다시 가르쳤습니다.
    • 그 결과, "거부"하는 능력은 0% 에서 **27.9%**까지 크게 향상되었습니다. (하지만 아직 완벽하지는 않음)

5. 결론: 아직 갈 길이 멀다

이 논문은 우리에게 중요한 메시지를 줍니다.

"인공지능이 시험 점수는 잘 맞지만, 실제 세상에서 복잡한 상황을 이해하고, '모른다'고 정직하게 말하는 능력은 아직 인간에 비해 매우 부족하다."

GroundingME 는 인공지능이 얼마나 발전했는지, 그리고 어디가 약한지를 정확히 보여주는 '진단 도구'이자, 더 안전하고 신뢰할 수 있는 AI 를 만들기 위한 로드맵이 될 것입니다.

한 줄 요약:

"인공지능이 시험지 암기로는 천재처럼 보이지만, 복잡한 현실에서는 엉뚱한 답을 하거나 없는 것을 있다고 우기 때문에, 진짜 실력을 측정하는 새로운 시험지 (GroundingME) 가 필요하다!"

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →