OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

1. 문제 발견: "눈이 나쁜 AI 들" (OddGridBench)

우리가 그림을 볼 때, 수많은 사물 중에서 아주 조금만 다른 것을 금방 찾아냅니다. 예를 들어, 같은 모양의 사과 100 개가 있는데 그중 하나가 색깔이 아주 살짝 더 붉거나, 회전 각도가 5 도 정도 틀어져 있거나, 크기가 머리카락 한 올만큼 작다면 우리 눈은 바로 "저기 있군!" 하고 찾아냅니다.

하지만 최신 AI 들은 이 '미세한 차이 찾기' 게임에서 완전히 엉망을 부리고 있었습니다.

비유: AI 들은 마치 안경을 쓰지 않은 채로 수백 개의 똑같은 사물 사이에서 아주 작은 차이를 찾으라고 시키는 것과 같습니다.
실험 (OddGridBench): 연구진은 AI 들을 테스트하기 위해 '이상한 것 찾기 (Odd-One-Out)' 게임을 만들었습니다. 격자 무늬 안에 비슷한 아이콘들을 잔뜩 넣고, 하나만 색깔, 크기, 회전, 위치 중 하나를 살짝 바꿔놓은 것입니다.
결과: GPT-5 나 Gemini 같은 최상위 AI 들조차 인간에 비해 성능이 매우 낮았습니다. 특히 회전이나 위치가 살짝 어긋난 것을 찾는 데는 거의 무능했습니다. AI 는 "아, 이건 사과네"라고 대략적인 의미는 알지만, "이 사과가 옆 사과보다 2% 더 작아" 같은 정밀한 시각적 감각은 부족했습니다.

2. 해결책: "AI 의 눈을 훈련시키는 방법" (OddGrid-GRPO)

그렇다면 AI 의 눈을 어떻게 훈련시킬까요? 연구진은 **'OddGrid-GRPO'**라는 새로운 학습 방법을 개발했습니다. 이는 두 가지 핵심 아이디어를 섞은 것입니다.

A. 단계별 훈련 (Curriculum Learning)

비유: 수영을 가르칠 때, 처음부터 거친 파도에서 뛰게 하지 않죠? 먼저 수영장 가장자리에서 발을 담그고, 다음엔 얕은 물에서, 마지막엔 깊은 물에서 훈련시킵니다.
적용: AI 에게 처음엔 차이가 아주 큰 그림 (예: 빨간 사과 vs 초록 사과) 을 보여주고, 점차 차이가 아주 미세한 그림 (예: 아주 살짝 다른 빨간색) 으로 난이도를 높여가며 훈련시켰습니다. 이렇게 하면 AI 가 서서히 미세한 차이에 익숙해집니다.

B. 거리 감지 보상 (Distance-Aware Reward)

비유: 시험을 치를 때, 정답이 '서울'인데 AI 가 '부산'이라고 답하면 0 점, '경기'라고 답하면 1 점 이런 식이죠. 하지만 이 방법은 '가까운 정답'을 아예 인정해주지 않아 학습이 어렵습니다.
적용: 연구진은 **"정답에 얼마나 가까운가?"**를 점수로 매겼습니다.
- 정답이 (3 행, 3 열) 인데 AI 가 (3 행, 4 열) 라고 답했다면, 완전히 틀린 (1 행, 10 열) 답보다 더 높은 점수를 줍니다.
- 이렇게 **"가까운 답일수록 더 좋은 점수"**를 주면, AI 는 "아, 내가 정답에 조금 더 가까워지려고 노력해야겠다"라고 배우게 되어 점점 정밀도가 높아집니다.

3. 결론: AI 가 '눈'을 뜨다

이 새로운 훈련 방법 (OddGrid-GRPO) 을 적용한 결과, AI 들의 성능이 비약적으로 향상되었습니다.

전에는: 미세한 차이를 못 보고 무작위로 찍거나, 완전히 엉뚱한 곳을 가리켰습니다.
이제: 인간의 눈처럼 색깔의 미세한 차이, 회전 각도, 위치의 어긋남까지 찾아낼 수 있게 되었습니다.

요약하자면

이 논문은 **"AI 가 그림을 볼 때 '대충'만 보고 '정밀하게' 보지 못하는 문제가 있다"**는 것을 발견했고, **"단계별로 난이도를 조절하고, 정답에 가까울수록 칭찬해 주는 훈련법"**을 통해 AI 가 인간의 눈처럼 미세한 시각적 차이를 구별하는 능력을 갖게 만들었다는 이야기입니다.

이 기술이 발전하면, AI 가 의료 영상에서 아주 작은 병변을 찾거나, 공장에서 미세한 불량품을 찾아내는 등 정밀한 시각 작업에서도 인간을 도와주는 더 똑똑한 파트너가 될 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

다중modal 대규모 언어 모델 (MLLMs) 은 고수준의 추론 및 시각 - 언어 이해 작업에서 뛰어난 성과를 보이고 있지만, 저수준의 시각적 지각 (low-level visual perception), 특히 미세한 시각적 불일치 (fine-grained visual discrepancies) 를 감지하는 능력은 여전히 미흡한 것으로 드러났습니다.

현황: 기존 벤치마크는 이미지 캡션링, 시각적 상식 추론 등 고수준 의미론적 작업에 집중되어 있어, 색상이나 크기, 회전, 위치와 같은 기본 시각 속성의 미세한 변화를 감지하는 능력은 체계적으로 분석되지 않았습니다.
핵심 문제: 인간의 시각 체계는 '눈에 띄는 효과 (pop-out effect)'를 통해 미세한 불일치를 빠르게 감지하지만, 최신 MLLM 들은 이러한 미세한 차이를 식별하는 데 실패하며, 이는 고수준의 공간 추론 및 객체 이해의 신뢰성을 저해하는 근본적인 병목 현상입니다.

2. 방법론 (Methodology)

가. OddGridBench (새로운 벤치마크)

MLLM 의 시각적 불일치 감지 민감도를 평가하기 위해 제어 가능한 벤치마크인 OddGridBench를 제안했습니다.

데이터 구성: 1,400 개 이상의 그리드 기반 이미지로 구성되며, 각 이미지는 시각적으로 유사한 아이콘들이 배열되어 있고, 그중 하나만이 다른 것들과 하나 이상의 속성 (색상, 크기, 회전, 위치) 에서 미세하게 다릅니다.
제어 가능성: 파라미터화된 Python 프로그램을 사용하여 색상 ( $\Delta E$ ), 크기 ( $\Delta s$ ), 회전 ( $\Delta \theta$ ), 위치 ( $\Delta x, \Delta y$ ) 의 불일치 정도를 정밀하게 조절합니다.
범위: 단일 속성 (4 가지) 및 다중 속성 조합 (2~4 가지) 으로 구성된 7 가지 유형을 포함하며, 자연물, 인공물, 기호 등 다양한 카테고리를 다룹니다.

나. OddGrid-GRPO (강화 학습 프레임워크)

모델의 미세한 시각적 변별 능력을 향상시키기 위해 OddGrid-GRPO라는 강화 학습 (RL) 프레임워크를 제안했습니다.

커리큘럼 학습 (Curriculum Learning): 학습 난이도를 점진적으로 조절합니다.
- Easy: 뚜렷한 차이 (Large discrepancy)
- Medium: 중간 정도의 차이
- Hard: 거의 감지하기 어려운 미세한 차이 (Near-threshold)
- 모델을 Easy 에서 Hard 로 순차적으로 학습시켜 점진적인 지각 민감도를 획득하도록 유도합니다.
거리 인식 보상 (Distance-Aware Reward): 기존 GRPO 의 이진 (정답/오답) 보상 신호의 한계를 극복합니다.
- 예측된 그리드 위치와 정답 위치 간의 유클리드 거리를 기반으로 보상을 계산합니다.
- 정답과 가까울수록 높은 보상을, 멀수록 보상이 감소하도록 설계하여 공간적 의존성을 더 정교하게 학습시킵니다.

3. 주요 기여 (Key Contributions)

OddGridBench 도입: 색상, 크기, 회전, 위치 등 다차원적인 지각 변수를 정량적으로 조절할 수 있는 확장 가능하고 제어 가능한 벤치마크를 최초로 제시했습니다.
MLLM 의 한계 규명: Qwen3-VL, InternVL3.5, Gemini-2.5-Pro, GPT-5 등 19 개의 최신 오픈소스 및 상용 모델을 평가한 결과, 모든 모델이 인간 수준의 성능에 크게 미치지 못함을 확인했습니다. 특히 회전과 위치 변화에 대한 감도가 매우 낮았습니다.
OddGrid-GRPO 제안: 커리큘럼 학습과 거리 인식 보상을 결합하여 모델의 미세한 시각적 변별 능력을 획기적으로 향상시키는 RL 프레임워크를 개발했습니다.

4. 실험 결과 (Results)

가. 벤치마크 평가 결과

성능 격차: 인간 평가자는 평균 **87.47%**의 정확도를 보인 반면, 가장 성능이 좋은 모델 (Qwen3-VL-32B) 도 **68.07%**에 그쳤습니다.
모델별 특징:
- 파라미터 규모가 큰 모델 (예: InternVL3.5-38B, Molmo-72B) 이 오히려 작은 모델 (Qwen3-VL-4B) 보다 성능이 낮거나 비슷한 경우가 있어, 미세한 지각 능력은 단순한 파라미터 규모보다 **데이터 정렬과 지각적 결합 (perceptual coupling)**에 더 의존함을 시사합니다.
- 회전 (Rotation) 과 위치 (Position) 불일치 감지는 모든 모델에서 가장 취약한 영역이었습니다.

나. OddGrid-GRPO 효과

성능 향상: 베이스 모델 (Qwen3-VL-2B) 의 초기 정확도 17.14% 에서, 표준 GRPO 를 적용하면 70.86% 로 상승했고, 제안한 OddGrid-GRPO를 적용하면 **82.64%**까지 향상되었습니다.
구체적 개선: 회전 (+13.0%p) 과 위치 (+23.0%p) 감지 능력에서 특히 큰 개선을 보였습니다.
학습 안정성: 거리 인식 보상과 커리큘럼 학습을 통해 수렴 속도가 빨라지고 최종 보상이 높아지는 것을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

지각적 기반의 중요성: 이 연구는 MLLM 의 고수준 추론 능력을 향상시키기 위해서는 **저수준의 정밀한 시각적 지각 (fine-grained visual perception)**이 필수적임을 증명했습니다.
새로운 학습 패러다임: 단순한 의미론적 정합성을 넘어, 공간적 근접성과 미세한 시각적 차이를 인식할 수 있는 **지각 기반 학습 (perception-grounded learning)**의 중요성을 강조합니다.
향후 방향: OddGridBench 와 OddGrid-GRPO 는 다중modal 지능의 지각적 토대를 강화하고, 로봇 공학, 의료 영상 분석, 산업 검사 등 미세한 결함 탐지가 필요한 분야에서의 모델 적용 가능성을 높이는 데 기여할 것입니다.

이 논문은 MLLM 이 인간과 유사한 수준의 시각적 민감도를 갖추기 위해서는 단순한 데이터 양의 증가가 아닌, 제어된 지각적 훈련과 공간적 보상 설계가 필수적임을 명확히 보여줍니다.