Each language version is independently generated for its own context, not a direct translation.

VOILA: AI 의 '눈'과 '머리'를 시험하는 새로운 시험지

이 논문은 **"VOILA"**라는 이름의 새로운 평가 기준을 소개합니다. VOILA 는 최신 멀티모달 AI(이미지와 텍스트를 모두 이해하는 AI) 가 얼마나 똑똑한지, 특히 **'시각적 유추 능력'**과 **'추상적 추론 능력'**을 테스트하는 거대한 시험지라고 생각하시면 됩니다.

기존의 AI 시험들은 "이 그림에 개가 있나요?"처럼 단순한 질문을 많이 냈다면, VOILA 는 **"A 와 B 의 관계가 C 와 D 의 관계와 같다면, D 는 어떤 모습이어야 할까?"**라는 훨씬 더 복잡한 문제를 냅니다.

이 내용을 일상적인 비유와 함께 쉽게 설명해 드릴게요.

1. VOILA 란 무엇인가요? (비유: 레고 블록 조합 게임)

상상해 보세요. 여러분에게 세 장의 그림이 주어졌습니다.

첫 번째 그림: 두 마리의 개가 공을 가지고 있습니다.
두 번째 그림: 두 마리의 고양이가 공을 가지고 있습니다.
세 번째 그림: 네 마리의 토끼가 공을 가지고 있습니다.

여기서 AI 는 **"첫 번째 그림과 두 번째 그림의 관계 (개→고양이)"**를 파악해서, **세 번째 그림 (토끼)**에 그 관계를 적용해 네 번째 그림을 만들어야 합니다.

정답: "네 마리의 토끼가 공을 가지고 있어야 한다" (개와 고양이의 관계가 '종류'만 바뀌고 '수'는 그대로였으므로, 토끼도 수를 유지해야 함).

VOILA 는 AI 가 이 관계의 법칙을 찾아내어, 전혀 새로운 그림을 창조해내는 능력을 시험합니다. 단순히 정답을 고르는 게 아니라, 정답을 그려내야 하는 것입니다.

2. 왜 이 시험이 중요한가요? (비유: 요리사 vs. 레시피 복사기)

기존의 AI 평가는 마치 **"레시피를 보고 '이게 무슨 요리인가요?'라고 묻는 것"**과 비슷했습니다. AI 는 정답을 고르기만 하면 됐죠.
하지만 VOILA 는 **"이 재료를 보고, 새로운 요리를 만들어보세요"**라고 시킵니다.

기존 방식: 선택지 중 하나를 고르는 것 (다지다).
VOILA 방식: 아무것도 없는 상태에서 정답을 만들어내는 것 (창조).

논문의 저자들은 "진짜 똑똑한 AI 는 선택지만 고르는 게 아니라, 복잡한 상황을 이해하고 새로운 해결책을 만들어낼 수 있어야 한다"고 말합니다.

3. 시험의 난이도: '방해꾼'이 있는 시험 (VOILA-WD vs VOILA-ND)

VOILA 는 두 가지 버전의 시험지를 준비했습니다.

VOILA-ND (방해꾼 없는 시험):
- 그림 속의 요소 (개, 고양이, 토끼) 만이 중요한 단서입니다.
- AI 가 관계를 찾기만 하면 됩니다.
VOILA-WD (방해꾼 있는 시험):
- 여기에는 **'방해꾼 (Distraction)'**이 숨어 있습니다.
- 예: "개는 빨간 옷을 입고, 고양이는 파란 옷을 입고, 토끼는 초록 옷을 입고 있다"고 할 때, 옷 색깔은 관계와 상관없는 소음입니다.
- AI 는 **"옷 색깔은 중요하지 않아, 개와 고양이의 '종류' 변화만 봐야 해!"**라고 판단해서 방해꾼을 걸러내야 합니다.

이건 마치 수학 문제를 풀 때, 문제 속에 불필요한 숫자나 헷갈리는 문장이 섞여 있는 것과 같습니다. AI 는 진짜 중요한 규칙만 찾아내야 합니다.

4. 실험 결과: AI 는 얼마나 잘할까요? (비유: 초보 운전사 vs. 베테랑)

이 시험에서 AI 들의 성적은 참으로 처참했습니다.

사람 (인간): 70% 이상 정답. (우리는 이걸 순식간에 이해합니다.)
최고 성능 AI (GPT-4o 등):
- 그림을 설명하는 단계에서는 70~80% 로 잘합니다. (눈은 밝습니다.)
- 하지만 관계를 찾아내고 적용하는 단계로 가면 성적이 뚝 떨어집니다. (머리가 약합니다.)
- 특히 방해꾼이 있는 시험 (VOILA-WD) 에서는 **13%**밖에 못 맞췄습니다.
- 가장 쉬운 문제조차 29% 만 맞췄습니다.

결론: 현재 AI 들은 그림을 '보는' 능력은 뛰어나지만, 그림들 사이의 숨겨진 규칙을 찾아내고 새로운 상황에 적용하는 '추론' 능력은 인간에 비해 훨씬 부족합니다.

5. 어떻게 하면 더 잘할까요? (비유: 단계별 레시피)

AI 가 바로 정답을 말하게 하면 실패하지만, 단계별로 생각하게 하면 성적이 조금 나아집니다.

직접 답하기: "네 번째 그림이 뭐야?" → AI: "모르겠어요." (성적 낮음)
단계별 생각하기 (Least-to-Most):
1. "첫 번째와 두 번째 그림에서 뭐가 변했어?" (개→고양이)
2. "세 번째 그림은 뭐야?" (토끼)
3. "그럼 네 번째 그림은?" (토끼가 변형된 모습)
  → 이렇게 작은 단계로 나누어 생각하게 하면 AI 의 성능이 2 배 이상 좋아졌습니다.

6. 요약 및 결론

이 논문은 **"AI 가 이제 그림을 볼 줄 알지만, 그림 사이의 논리를 찾아내어 새로운 것을 창조하는 능력은 아직 인간과 거리가 멀다"**는 사실을 증명했습니다.

VOILA는 AI 의 '지능'을 측정하는 새로운 척도입니다.
현재 AI 는 방해꾼이 있거나 복잡한 추론이 필요한 문제에서는 쉽게 넘어집니다.
하지만 단계별로 생각하게 유도하면 성능이 향상되므로, AI 를 더 똑똑하게 만드는 데 중요한 단서를 제공했습니다.

마치 어린아이가 레고 블록을 조립할 때, 처음에는 조각만 보고 놀다가 나중에는 설계도 (규칙) 를 보고 복잡한 구조물을 짓는 것처럼, AI 도 이제 '조각 보기' 단계에서 '설계도 읽기' 단계로 넘어가야 할 시점이 온 것입니다. VOILA 는 그 다음 단계로 가기 위한 나침반 역할을 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

멀티모달 대규모 언어 모델 (MLLMs) 은 이미지 캡션 생성, 시각적 질문 답변 (VQA) 등 기존 벤치마크에서 뛰어난 성능을 보여주고 있습니다. 그러나 추상적 관계 추론 (Abstract Relational Reasoning) 과 유추 (Analogy) 능력을 평가하는 데에는 여전히 한계가 있습니다.

기존 연구의 한계: 대부분의 기존 시각적 유추 벤치마크는 선다형 (Multiple-choice) 문제를 사용하여, 모델이 정답을 '선택'하는 능력만 평가합니다. 이는 모델이 고차원적인 인지 과제를 수행하여 새로운 해결책을 '생성'하는 능력을 충분히 측정하지 못합니다.
핵심 과제: MLLM 이 여러 이미지 간의 관계를 추론하고, 이를 새로운 상황에 적용하여 정답 (이미지 또는 텍스트) 을 생성해내는 능력을 평가할 수 있는 개방형 (Open-ended) 벤치마크가 부재했습니다.

2. 방법론 (Methodology)

이 논문은 VOILA라는 대규모, 개방형, 동적 벤치마크를 제안합니다. VOILA 는 시각적 유추 (Visual Analogy) 과제를 통해 MLLM 의 지각적 이해와 추론 능력을 평가합니다.

2.1 데이터셋 구성 (VOILA Benchmark)

유추 구조: $A : A' :: B : B'$ 형식으로, 세 개의 이미지 (참조 쌍 $A, A'$ 및 적용 대상 $B$ ) 를 입력받아 네 번째 이미지 $B'$ 를 생성해야 합니다.
속성 (Properties): 세 가지 핵심 속성을 기반으로 유추를 구성합니다.
1. 주체의 수 (Number of subjects)
2. 주체의 유형 (Subject type) (예: 개, 사람, 곰 등)
3. 행동 (Action) (예: 걷기, 수영하기 등)
규칙 (Rules): 속성 간의 관계를 정의하는 네 가지 규칙을 적용합니다.
- Stable: 속성 값이 변하지 않음.
- Change: 속성 값이 변경됨.
- Arithmetic: 주체의 수가 산술적으로 증가 또는 감소함.
- Distraction (산만 요소): 특정 속성 (예: 주체 유형) 이 무작위로 변하여 유추 관계와 무관한 정보를 제공함. 이는 모델이 관련 없는 정보를 필터링해야 하는 난이도를 높입니다.
데이터셋 변형:
- VOILA-WD (With Distraction): 산만 요소 규칙이 포함된 복잡한 버전 (10,000 개 질문).
- VOILA-ND (Without Distraction): 산만 요소가 없는 단순 버전 (3,600 개 질문).
생성 방식: 텍스트 - 이미지 생성 모델 (SDXL) 을 사용하여 14 가지 주체, 13 가지 행동, 4 가지 숫자 조합을 기반으로 640 만 개 이상의 고유한 시각적 유추 시나리오를 동적으로 생성했습니다.

2.2 평가 프로세스

MLLM 의 성능을 평가하기 위해 Least-to-Most (L2M) 프롬프팅 전략을 사용하여 4 단계로 작업을 분해했습니다.

시각적 내용 이해: 세 이미지의 속성 (수, 유형, 행동) 을 텍스트로 설명.
관계 식별: 첫 번째와 두 번째 이미지 간의 변화/불변 속성 파악.
관계 적용: 식별된 규칙을 세 번째 이미지에 적용하여 네 번째 이미지의 속성 예측.
이미지 생성: 예측된 속성을 기반으로 실제 이미지 생성 (생성 가능한 모델에 한함).

3. 주요 기여 (Key Contributions)

VOILA 벤치마크 제안: 시각적 유추를 평가하기 위한 대규모 개방형 동적 벤치마크를 최초로 도입했습니다. 기존 선다형이 아닌 '생성' 기반 평가를 가능하게 합니다.
동적 데이터 생성 파이프라인: 텍스트 - 이미지 모델을 활용하여 19 가지 구조와 다양한 규칙 조합을 통해 확장 가능한 640 만 개 이상의 질문을 생성하는 방법을 제시했습니다.
MLLM 의 추론 능력에 대한 심층 분석: 현재 최첨단 MLLM 들이 고차원 추론에서 인간과 얼마나 큰 격차를 보이는지, 그리고 어떤 요인 (입력 형식, 프롬프팅 전략, 산만 요소 등) 이 성능에 영향을 미치는지 체계적으로 분석했습니다.

4. 실험 결과 (Results)

GPT-4o, LLaMa 3.2, Qwen-VL 등 여러 최첨단 MLLM 과 인간 (MTurk) 을 대상으로 실험한 결과는 다음과 같습니다.

인간 vs 모델 성능 격차:
- VOILA-WD (복잡): 인간 71% vs 최고 모델 (LLaMa 3.2) 13% (격차 약 58%).
- VOILA-ND (단순): 인간 69% vs 최고 모델 (GPT-4o) 29% (격차 약 40%).
- 모델들은 이미지 설명 단계 (약 78% 정확도) 에서는 잘 수행하지만, 관계 식별 및 적용 단계에서 성능이 급격히 저하됩니다.
L2M 프롬프팅의 효과: 직접 답변 (Direct Answer) 방식보다 단계별 추론 (L2M) 을 유도할 때 모델 성능이 유의미하게 향상되었습니다.
입력 형식의 영향: 세 개의 이미지를 하나의 콜라주 (Collage) 로 입력하는 것보다 순차적으로 분리된 이미지 (Sequential Images) 로 입력했을 때 모델의 시각적 이해력이 약 40% 향상되었습니다.
산만 요소 (Distraction) 의 영향: 산만 요소가 포함된 VOILA-WD 에서 모델의 성능이 크게 떨어졌으며, 특히 GPT-4o 는 22% 성능 하락을 보였습니다. 반면 LLaMa 3.2 는 산만 요소 처리에서 상대적으로 나은 성능을 보였습니다.
생성 단계의 한계: 관계 추론이 완료된 후, 예측된 속성을 기반으로 이미지를 생성하는 단계에서 모델의 정확도는 5% 미만으로 떨어졌습니다.

5. 의의 및 결론 (Significance)

인지적 한계 규명: 현재 MLLM 은 시각적 내용을 인식하는 능력은 뛰어나지만, 이미지 간의 추상적 관계를 추론하고 이를 새로운 상황에 적용하는 고차원 인지 능력에서는 인간과 비교할 수 없을 정도로 부족함을 증명했습니다.
향후 연구 방향 제시: 단순한 인식 (Perception) 을 넘어 추론 (Reasoning) 과 생성 (Generation) 을 통합하는 평가 기준이 필요함을 강조합니다.
벤치마크의 중요성: VOILA 는 MLLM 이 인간 수준의 지능에 도달하기 위해 해결해야 할 복잡한 추론 과제를 평가하는 엄격한 표준으로 자리 잡을 것입니다.

이 논문은 MLLM 이 단순한 패턴 매칭을 넘어 진정한 추론 능력을 갖추기 위해서는 관계적 추론과 생성적 사고에 대한 근본적인 발전이 필요함을 시사합니다.

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning