Each language version is independently generated for its own context, not a direct translation.

🧠 비전-언어 모델의 '순서' 실력 테스트: ORDINALBENCH

이 논문은 최근 화두가 되는 AI(시각-언어 모델)가 얼마나 똑똑한지, 특히 '순서'를 세고 따라가는 능력이 얼마나 약한지를 낱낱이 파헤친 연구입니다.

마치 AI 에게 "그림 속 사물 중 300 번째에 있는 것을 찾아줘"라고 시키는 과제를 통해, AI 의 두뇌가 어디까지 작동하는지 진단하는 **치밀한 검사지 **(ORDINALBENCH)를 소개합니다.

🎯 핵심 내용: AI 는 '순서'를 못 세요!

최근 AI 는 그림을 보고 설명하는 능력은 매우 뛰어나졌습니다. 하지만 "첫 번째부터 시작해서 오른쪽으로 300 번 이동한 곳에 있는 사물은 뭐야?" 같은 질문을 받으면, AI 는 종종 엉뚱한 답을 하거나 아예 길을 잃어버립니다.

이 연구는 AI 가 단순히 '개수'를 세는 것 (1, 2, 3 개) 이 아니라, 복잡한 규칙을 따라가며 '순서'를 추적하는 능력에 큰 약점이 있다는 것을 발견했습니다.

🧩 비유로 이해하기: "미로 찾기 게임"

이 연구를 쉽게 이해하기 위해 미로 찾기 게임을 상상해 보세요.

일반적인 AI: "여기 저기 사물이 많네? 검은색 차가 3 대 있네?" (개수 세기) → 잘함 ✅
ORDINALBENCH 가 요구하는 AI: "여기서 출발해서 오른쪽으로 100 번 이동하고, 3 번 건너뛰고, 벽에 부딪히면 왼쪽으로 돌아서 계속 가다가 250 번째에 있는 사물을 찾아줘." (순서 추적) → 완전 망함 ❌

이 논문은 AI 들이 이 '미로 찾기'를 할 때, 100 번 이동하는 건 가능해도 300 번이 되면 길을 잃고, 규칙이 조금만 복잡해지면 (예: 3 칸 건너뛰기) 아예 엉망이 된다는 사실을 증명했습니다.

🔍 연구의 3 가지 주요 특징

1. 📏 척도 조절 가능한 '진단 도구' (ORDINALBENCH)

연구진은 AI 를 시험하기 위해 39,000 개의 문제를 만들었습니다. 문제는 어렵게 조절할 수 있습니다.

숫자 크기: 5 번째 찾기 (쉬움) vs 300 번째 찾기 (어려움)
경로 복잡도: 원형 길 (쉬움) vs 미로 같은 복잡한 길 (어려움)
규칙: 한 칸씩 이동 (쉬움) vs 3 칸씩 건너뛰며 이동 (어려움)

이것은 마치 수학 시험에서 1+1 을 묻는 게 아니라, 복잡한 미로에서 300 단계를 계산하며 길을 찾는 문제를 내는 것과 같습니다.

2. 🕵️‍♂️ 답만 보는 게 아니라 '생각 과정'도 채점

기존에는 AI 가 "정답: W76"이라고만 말하면 점수를 줬습니다. 하지만 이 연구는 **AI 가 어떻게 그 답에 도달했는지 **(단계별 생각 과정)를 요구합니다.

"1 단계: O23 에서 시작"
"2 단계: Z64 로 이동"
...
"300 단계: X28 도착"

이렇게 **단계별 기록 **(Trace)을 채점함으로써, AI 가 어디서부터 길을 잃었는지 (예: 50 번째에서 방향을 틀었는지, 100 번째에서 숫자를 잘못 세었는지) 정확히 파악할 수 있습니다.

3. 🤖 최신 AI 들의 실력 공개

GPT-5, Gemini, Qwen 등 최신 AI 모델들을 이 시험에 대입해 봤습니다. 결과는 충격적이었습니다.

쉬운 문제: 꽤 잘 맞췄습니다.
**어려운 문제 **(큰 숫자, 복잡한 미로) 완전히 무너졌습니다. 정답률이 10% 대 이하로 떨어졌고, 많은 모델이 아예 답을 못 찾거나 (길 잃음), 규칙을 무시했습니다.

💡 왜 이런 일이 일어날까요? (원인 분석)

연구진은 AI 가 실패하는 두 가지 큰 이유를 발견했습니다.

**언어 병목 현상 **(Language Bottleneck)
AI 는 그림을 보고 '이건 A, 저건 B'라고 언어로 변환해서 생각합니다. 하지만 미로처럼 복잡한 공간 구조를 언어로 설명하려다 정보가 꼬이거나 사라져버립니다. 마치 복잡한 지도를 말로만 설명받아서 길을 찾으려다 헤매는 상황과 같습니다.
절차적 지식 부족
AI 는 "사과가 뭐야?" (지식) 는 잘 알지만, "3 칸 건너뛰면서 100 번 이동해" (절차/알고리즘) 같은 작업 지시를 수행하는 데는 약합니다. 마치 레시피는 외웠지만, 실제로 요리를 하다가 재료를 몇 번 넣었는지 잊어버리는 요리사와 같습니다.

🚀 결론: 앞으로의 방향

이 연구는 AI 가 단순히 "그림을 보고 말하기"를 넘어, **실제 로봇이나 자율주행차처럼 복잡한 순서와 규칙을 따라 행동하는 '지능형 에이전트'**가 되려면, 순서 추적과 알고리즘 실행 능력을 훨씬 더 강화해야 한다고 경고합니다.

ORDINALBENCH는 앞으로 AI 개발자들이 이 약점을 보완하고, 더 똑똑하고 안정적인 AI 를 만들기 위한 **중요한 기준점 **(Benchmark)이 될 것입니다.

한 줄 요약: "AI 는 그림을 잘 설명하지만, 복잡한 미로에서 300 번째 사물을 찾아내는 '순서 추적' 능력은 아직 초보 수준입니다. 이 연구는 그 약점을 정확히 찾아내고 고치는 방법을 제시합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

최근 비전 - 언어 모델 (VLM) 은 다양한 멀티모달 벤치마크에서 뛰어난 성능을 보이지만, **순서 번호 이해 (Ordinal Number Understanding)**와 관련된 기본 시각 추론에서는 심각한 한계를 드러내고 있습니다.

핵심 문제: VLM 들은 객체의 절대적인 개수를 세는 것 (Cardinal understanding) 은 비교적 잘 수행하지만, 시각적 입력을 바탕으로 규칙에 따라 객체를 순차적으로 추적하고 특정 순서 (N 번째) 의 객체를 식별하는 절차적 추론 (Procedural Reasoning) 능력은 매우 취약합니다.
일반화 실패: 훈련 데이터에 존재하지 않는 큰 숫자 (예: N=300) 나 복잡한 경로 (미로 구조) 가 주어지면 성능이 급격히 저하됩니다. 이는 모델이 단순히 어휘를 암기하는 수준을 넘어, 시각 정보를 기반으로 알고리즘을 실행하고 내부 상태를 유지하는 능력이 부족함을 시사합니다.
기존 벤치마크의 한계: 기존의 벤치마크들은 주로 정적인 객체 인식이나 '몇 개인가?'와 같은 개수 세기에 초점을 맞추어, 복잡한 순차적 규칙 적용과 대규모 순서 번호에 대한 일반화 능력을 진단하기에는 부족했습니다.

2. 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 ORDINALBENCH라는 진단용 벤치마크를 제안했습니다.

2.1 태스크 정의: N 번째 객체 식별 (N-th Object Identification)

모델은 주어진 이미지와 이동 규칙 (Traversal Rule) 을 바탕으로 시작점 (Reference) 에서 출발하여 N 번째에 해당하는 객체의 식별자 (Identifier) 를 찾아야 합니다.

입력: 이미지 ( $I$ ), 이동 규칙 ( $R$ ), 시작 객체 ( $o_{start}$ ), 목표 순서 ( $N$ ), 건너뛰기 간격 ( $k$ ).
출력: 최종 정답 ( $\hat{o}_N$ ) 과 구조화된 추론 과정 (Reasoning Trace). 모델은 단순히 답만 말하는 것이 아니라, 각 단계별 이동 경로를 JSON 형식으로 단계별로 기록해야 합니다.
규칙 예시: 시계 방향 이동, 미로 내 장애물 회피 규칙, $k$ 단계마다 1 회 카운트하는 건너뛰기 (Skip counting) 등.

2.2 난이도 제어 축 (Difficulty Control)

일반화 한계를 정밀하게 진단하기 위해 난이도를 3 가지 축으로 체계적으로 제어합니다.

배치 복잡성 (Arrangement Complexity):
- 단순 루프 (Single-Loop): 2D/3D 원형 경로.
- 미로 루프 (Maze-Loop): 알고리즘적으로 생성된 복잡한 경로 (죽은 길 없음).
순서 번호 크기 (Ordinal Magnitude):
- Within: 객체 수 범위 내 ($2 \le N \le S$).
- Exceed: 객체 수 초과 ( $S < N \le 99$ ).
- Large Scale: 매우 큰 숫자 ($100 \le N \le 300$).
객체 수 (Object Count): 장면의 시각적 부하를 조절 (소수 ~ 다수, 그리드 크기 변화).
건너뛰기 (Skip Counting): $k > 1$ 인 경우, 알고리즘적 실행 능력을 추가로 평가.

2.3 데이터셋 및 평가 지표

데이터: 2D 단일 루프, 2D 미로, 3D 단일 루프 등 총 2,600 개의 이미지와 39,000 개의 질문 - 답변 쌍을 자동 생성했습니다. 모든 데이터는 정답 추론 경로 (Ground-truth Trace) 를 포함합니다.
평가 지표:
- 최종 정확도 (Acc@N): 정답 여부.
- 정규화된 가장 긴 올바른 접두사 (nLCP): 추론 과정이 얼마나 오래 올바르게 유지되었는지.
- 단계별 추적 정확도 (STA): 각 단계의 추론이 정답과 일치하는 비율.
- 추적 커버리지 (Cov.): 모델이 유효한 구조화된 추론 과정을 출력한 비율.

3. 주요 기여 (Key Contributions)

ORDINALBENCH 개발 및 공개: 대규모 순서 번호 일반화, 복잡한 경로 추적, 건너뛰기 카운팅을 체계적으로 평가하는 최초의 진단 벤치마크를 구축하고 오픈했습니다.
VLM 의 한계 규명: 최신 SOTA 모델들을 제로샷 (Zero-shot) 으로 평가하여, 복잡한 경로와 큰 숫자 조건에서 성능이 급격히 떨어지는 특징적인 약점을 발견했습니다.
향후 연구 방향 제시: 관찰된 실패 모드를 기반으로 VLM 의 구조적 개선 (상태 표현, 절차적 학습 커리큘럼 등) 을 위한 통찰을 제공했습니다.

4. 실험 결과 (Results)

GPT-5, Gemini 2.5, Qwen2.5-VL, InternVL3.5, Molmo 등 주요 VLM 들을 평가한 결과는 다음과 같습니다.

전반적 성능 저하: 단순한 2D 단일 루프에서는 일부 모델이 우연 수준 (Chance Level) 을 상회했으나, **미로 구조 (Maze-Loop)**나 3D 장면으로 넘어가면 성능이 급격히 하락했습니다. (예: GPT-5 의 미로 태스크 정확도 11.04%)
큰 숫자 (Large Scale) 에 대한 취약성: 순서 번호 $N$ 이 100 을 넘어가거나 객체 수가 많아질수록 정확도가 급감했습니다. 이는 모델의 지속적 주의 (Sustained Attention) 및 장기 기억 유지 능력의 부족을 보여줍니다.
알고리즘적 실행 실패: 건너뛰기 카운팅 ( $k > 1$ ) 조건에서 모든 모델의 성능이 우연 수준에 근접할 정도로 떨어졌습니다. 이는 모델이 단순한 지시 추종을 넘어 내부 상태 (Internal State) 를 업데이트하며 알고리즘을 실행하는 능력이 결여되어 있음을 시사합니다.
추론 과정의 불일치: 최종 정답뿐만 아니라 단계별 추적 정확도 (STA) 와 nLCP 지표에서도 낮은 점수를 기록하여, 모델이 올바른 답을 맞추더라도 그 과정이 무작위적이거나 일관성이 없음을 확인했습니다.
모델별 차이: Molmo 시리즈는 파싱 실패가 많아 구조화된 출력 자체를 내지 못하는 경우가 많았으며, Qwen2.5-VL 시리즈가 상대적으로 가장 좋은 성능을 보였으나 여전히 한계가 명확했습니다.

5. 의의 및 결론 (Significance & Conclusion)

근본적 약점 발견: 현재 VLM 들은 정적인 패턴 인식에는 강하지만, 시각 정보를 기반으로 **정밀한 다단계 절차 (Procedural Reasoning)**를 수행하는 능력은 여전히 미약합니다. 이는 '언어 병목 (Visual-to-Language conversion)'과 절차적 지식의 부재가 원인일 수 있습니다.
새로운 평가 패러다임: 단순한 정답률 (Accuracy) 이 아닌, **추론 과정의 일관성 (Trace Metrics)**을 평가하는 것이 VLM 의 진정한 일반화 능력을 진단하는 데 필수적임을 강조했습니다.
향후 방향: 더 견고한 비전 에이전트를 만들기 위해서는 명시적인 상태 표현, 단계별 절차적 실행을 강조하는 학습 커리큘럼, 그리고 구조화된 생성을 위한 검증 메커니즘이 필요하다고 제안합니다.

결론적으로, ORDINALBENCH 는 VLM 이 단순한 인식기를 넘어 복잡한 시각적 추론을 수행할 수 있는 '비전 에이전트'로 발전하기 위해 반드시 넘어야 할 진단적 기준점 (Benchmark) 을 제시합니다.

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models