OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

본 논문은 비전 - 언어 모델의 순서적 숫자 이해 및 일반화 한계를 진단하기 위해 순서적 크기, 배열 복잡도, 객체 수를 제어하는 39,000 개의 질문 - 답변 쌍과 단계별 추론 평가 도구를 포함한 'OrdinalBench' 벤치마크를 제안합니다.

Yusuke Tozaki, Hisashi Miyamori

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 비전-언어 모델의 '순서' 실력 테스트: ORDINALBENCH

이 논문은 최근 화두가 되는 AI(시각-언어 모델)가 얼마나 똑똑한지, 특히 '순서'를 세고 따라가는 능력이 얼마나 약한지를 낱낱이 파헤친 연구입니다.

마치 AI 에게 "그림 속 사물 중 300 번째에 있는 것을 찾아줘"라고 시키는 과제를 통해, AI 의 두뇌가 어디까지 작동하는지 진단하는 **치밀한 검사지 **(ORDINALBENCH)를 소개합니다.


🎯 핵심 내용: AI 는 '순서'를 못 세요!

최근 AI 는 그림을 보고 설명하는 능력은 매우 뛰어나졌습니다. 하지만 "첫 번째부터 시작해서 오른쪽으로 300 번 이동한 곳에 있는 사물은 뭐야?" 같은 질문을 받으면, AI 는 종종 엉뚱한 답을 하거나 아예 길을 잃어버립니다.

이 연구는 AI 가 단순히 '개수'를 세는 것 (1, 2, 3 개) 이 아니라, 복잡한 규칙을 따라가며 '순서'를 추적하는 능력에 큰 약점이 있다는 것을 발견했습니다.

🧩 비유로 이해하기: "미로 찾기 게임"

이 연구를 쉽게 이해하기 위해 미로 찾기 게임을 상상해 보세요.

  1. 일반적인 AI: "여기 저기 사물이 많네? 검은색 차가 3 대 있네?" (개수 세기) → 잘함
  2. ORDINALBENCH 가 요구하는 AI: "여기서 출발해서 오른쪽으로 100 번 이동하고, 3 번 건너뛰고, 벽에 부딪히면 왼쪽으로 돌아서 계속 가다가 250 번째에 있는 사물을 찾아줘." (순서 추적) → 완전 망함

이 논문은 AI 들이 이 '미로 찾기'를 할 때, 100 번 이동하는 건 가능해도 300 번이 되면 길을 잃고, 규칙이 조금만 복잡해지면 (예: 3 칸 건너뛰기) 아예 엉망이 된다는 사실을 증명했습니다.


🔍 연구의 3 가지 주요 특징

1. 📏 척도 조절 가능한 '진단 도구' (ORDINALBENCH)

연구진은 AI 를 시험하기 위해 39,000 개의 문제를 만들었습니다. 문제는 어렵게 조절할 수 있습니다.

  • 숫자 크기: 5 번째 찾기 (쉬움) vs 300 번째 찾기 (어려움)
  • 경로 복잡도: 원형 길 (쉬움) vs 미로 같은 복잡한 길 (어려움)
  • 규칙: 한 칸씩 이동 (쉬움) vs 3 칸씩 건너뛰며 이동 (어려움)

이것은 마치 수학 시험에서 1+1 을 묻는 게 아니라, 복잡한 미로에서 300 단계를 계산하며 길을 찾는 문제를 내는 것과 같습니다.

2. 🕵️‍♂️ 답만 보는 게 아니라 '생각 과정'도 채점

기존에는 AI 가 "정답: W76"이라고만 말하면 점수를 줬습니다. 하지만 이 연구는 **AI 가 어떻게 그 답에 도달했는지 **(단계별 생각 과정)를 요구합니다.

  • "1 단계: O23 에서 시작"
  • "2 단계: Z64 로 이동"
  • ...
  • "300 단계: X28 도착"

이렇게 **단계별 기록 **(Trace)을 채점함으로써, AI 가 어디서부터 길을 잃었는지 (예: 50 번째에서 방향을 틀었는지, 100 번째에서 숫자를 잘못 세었는지) 정확히 파악할 수 있습니다.

3. 🤖 최신 AI 들의 실력 공개

GPT-5, Gemini, Qwen 등 최신 AI 모델들을 이 시험에 대입해 봤습니다. 결과는 충격적이었습니다.

  • 쉬운 문제: 꽤 잘 맞췄습니다.
  • **어려운 문제 **(큰 숫자, 복잡한 미로) 완전히 무너졌습니다. 정답률이 10% 대 이하로 떨어졌고, 많은 모델이 아예 답을 못 찾거나 (길 잃음), 규칙을 무시했습니다.

💡 왜 이런 일이 일어날까요? (원인 분석)

연구진은 AI 가 실패하는 두 가지 큰 이유를 발견했습니다.

  1. **언어 병목 현상 **(Language Bottleneck)
    AI 는 그림을 보고 '이건 A, 저건 B'라고 언어로 변환해서 생각합니다. 하지만 미로처럼 복잡한 공간 구조를 언어로 설명하려다 정보가 꼬이거나 사라져버립니다. 마치 복잡한 지도를 말로만 설명받아서 길을 찾으려다 헤매는 상황과 같습니다.

  2. 절차적 지식 부족
    AI 는 "사과가 뭐야?" (지식) 는 잘 알지만, "3 칸 건너뛰면서 100 번 이동해" (절차/알고리즘) 같은 작업 지시를 수행하는 데는 약합니다. 마치 레시피는 외웠지만, 실제로 요리를 하다가 재료를 몇 번 넣었는지 잊어버리는 요리사와 같습니다.


🚀 결론: 앞으로의 방향

이 연구는 AI 가 단순히 "그림을 보고 말하기"를 넘어, **실제 로봇이나 자율주행차처럼 복잡한 순서와 규칙을 따라 행동하는 '지능형 에이전트'**가 되려면, 순서 추적과 알고리즘 실행 능력을 훨씬 더 강화해야 한다고 경고합니다.

ORDINALBENCH는 앞으로 AI 개발자들이 이 약점을 보완하고, 더 똑똑하고 안정적인 AI 를 만들기 위한 **중요한 기준점 **(Benchmark)이 될 것입니다.

한 줄 요약: "AI 는 그림을 잘 설명하지만, 복잡한 미로에서 300 번째 사물을 찾아내는 '순서 추적' 능력은 아직 초보 수준입니다. 이 연구는 그 약점을 정확히 찾아내고 고치는 방법을 제시합니다."