VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

이 논문은 시각적 유추 추론 능력을 평가하기 위해 VOILA 라는 새로운 벤치마크를 제안하고, 현재 MLLM 들이 이미지 간 관계 이해와 고수준 추론에서 인간에 비해 현저히 낮은 성능을 보이지만 단계적 프롬핑 전략을 통해 일부 개선될 수 있음을 규명했습니다.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

게시일 2026-02-26
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

VOILA: AI 의 '눈'과 '머리'를 시험하는 새로운 시험지

이 논문은 **"VOILA"**라는 이름의 새로운 평가 기준을 소개합니다. VOILA 는 최신 멀티모달 AI(이미지와 텍스트를 모두 이해하는 AI) 가 얼마나 똑똑한지, 특히 **'시각적 유추 능력'**과 **'추상적 추론 능력'**을 테스트하는 거대한 시험지라고 생각하시면 됩니다.

기존의 AI 시험들은 "이 그림에 개가 있나요?"처럼 단순한 질문을 많이 냈다면, VOILA 는 **"A 와 B 의 관계가 C 와 D 의 관계와 같다면, D 는 어떤 모습이어야 할까?"**라는 훨씬 더 복잡한 문제를 냅니다.

이 내용을 일상적인 비유와 함께 쉽게 설명해 드릴게요.


1. VOILA 란 무엇인가요? (비유: 레고 블록 조합 게임)

상상해 보세요. 여러분에게 세 장의 그림이 주어졌습니다.

  • 첫 번째 그림: 두 마리의 개가 공을 가지고 있습니다.
  • 두 번째 그림: 두 마리의 고양이가 공을 가지고 있습니다.
  • 세 번째 그림: 네 마리의 토끼가 공을 가지고 있습니다.

여기서 AI 는 **"첫 번째 그림과 두 번째 그림의 관계 (개→고양이)"**를 파악해서, **세 번째 그림 (토끼)**에 그 관계를 적용해 네 번째 그림을 만들어야 합니다.

  • 정답: "네 마리의 토끼가 공을 가지고 있어야 한다" (개와 고양이의 관계가 '종류'만 바뀌고 '수'는 그대로였으므로, 토끼도 수를 유지해야 함).

VOILA 는 AI 가 이 관계의 법칙을 찾아내어, 전혀 새로운 그림을 창조해내는 능력을 시험합니다. 단순히 정답을 고르는 게 아니라, 정답을 그려내야 하는 것입니다.

2. 왜 이 시험이 중요한가요? (비유: 요리사 vs. 레시피 복사기)

기존의 AI 평가는 마치 **"레시피를 보고 '이게 무슨 요리인가요?'라고 묻는 것"**과 비슷했습니다. AI 는 정답을 고르기만 하면 됐죠.
하지만 VOILA 는 **"이 재료를 보고, 새로운 요리를 만들어보세요"**라고 시킵니다.

  • 기존 방식: 선택지 중 하나를 고르는 것 (다지다).
  • VOILA 방식: 아무것도 없는 상태에서 정답을 만들어내는 것 (창조).

논문의 저자들은 "진짜 똑똑한 AI 는 선택지만 고르는 게 아니라, 복잡한 상황을 이해하고 새로운 해결책을 만들어낼 수 있어야 한다"고 말합니다.

3. 시험의 난이도: '방해꾼'이 있는 시험 (VOILA-WD vs VOILA-ND)

VOILA 는 두 가지 버전의 시험지를 준비했습니다.

  1. VOILA-ND (방해꾼 없는 시험):
    • 그림 속의 요소 (개, 고양이, 토끼) 만이 중요한 단서입니다.
    • AI 가 관계를 찾기만 하면 됩니다.
  2. VOILA-WD (방해꾼 있는 시험):
    • 여기에는 **'방해꾼 (Distraction)'**이 숨어 있습니다.
    • 예: "개는 빨간 옷을 입고, 고양이는 파란 옷을 입고, 토끼는 초록 옷을 입고 있다"고 할 때, 옷 색깔은 관계와 상관없는 소음입니다.
    • AI 는 **"옷 색깔은 중요하지 않아, 개와 고양이의 '종류' 변화만 봐야 해!"**라고 판단해서 방해꾼을 걸러내야 합니다.

이건 마치 수학 문제를 풀 때, 문제 속에 불필요한 숫자나 헷갈리는 문장이 섞여 있는 것과 같습니다. AI 는 진짜 중요한 규칙만 찾아내야 합니다.

4. 실험 결과: AI 는 얼마나 잘할까요? (비유: 초보 운전사 vs. 베테랑)

이 시험에서 AI 들의 성적은 참으로 처참했습니다.

  • 사람 (인간): 70% 이상 정답. (우리는 이걸 순식간에 이해합니다.)
  • 최고 성능 AI (GPT-4o 등):
    • 그림을 설명하는 단계에서는 70~80% 로 잘합니다. (눈은 밝습니다.)
    • 하지만 관계를 찾아내고 적용하는 단계로 가면 성적이 뚝 떨어집니다. (머리가 약합니다.)
    • 특히 방해꾼이 있는 시험 (VOILA-WD) 에서는 **13%**밖에 못 맞췄습니다.
    • 가장 쉬운 문제조차 29% 만 맞췄습니다.

결론: 현재 AI 들은 그림을 '보는' 능력은 뛰어나지만, 그림들 사이의 숨겨진 규칙을 찾아내고 새로운 상황에 적용하는 '추론' 능력은 인간에 비해 훨씬 부족합니다.

5. 어떻게 하면 더 잘할까요? (비유: 단계별 레시피)

AI 가 바로 정답을 말하게 하면 실패하지만, 단계별로 생각하게 하면 성적이 조금 나아집니다.

  • 직접 답하기: "네 번째 그림이 뭐야?" → AI: "모르겠어요." (성적 낮음)
  • 단계별 생각하기 (Least-to-Most):
    1. "첫 번째와 두 번째 그림에서 뭐가 변했어?" (개→고양이)
    2. "세 번째 그림은 뭐야?" (토끼)
    3. "그럼 네 번째 그림은?" (토끼가 변형된 모습)
      → 이렇게 작은 단계로 나누어 생각하게 하면 AI 의 성능이 2 배 이상 좋아졌습니다.

6. 요약 및 결론

이 논문은 **"AI 가 이제 그림을 볼 줄 알지만, 그림 사이의 논리를 찾아내어 새로운 것을 창조하는 능력은 아직 인간과 거리가 멀다"**는 사실을 증명했습니다.

  • VOILA는 AI 의 '지능'을 측정하는 새로운 척도입니다.
  • 현재 AI 는 방해꾼이 있거나 복잡한 추론이 필요한 문제에서는 쉽게 넘어집니다.
  • 하지만 단계별로 생각하게 유도하면 성능이 향상되므로, AI 를 더 똑똑하게 만드는 데 중요한 단서를 제공했습니다.

마치 어린아이가 레고 블록을 조립할 때, 처음에는 조각만 보고 놀다가 나중에는 설계도 (규칙) 를 보고 복잡한 구조물을 짓는 것처럼, AI 도 이제 '조각 보기' 단계에서 '설계도 읽기' 단계로 넘어가야 할 시점이 온 것입니다. VOILA 는 그 다음 단계로 가기 위한 나침반 역할을 합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →