Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

이 논문은 MLLM 의 다섯 가지 핵심 능력을 평가하기 위해 아동의 인지 발달 단계를 모방한 12 가지 2D 그리드 기반 작업으로 구성된 새로운 벤치마크 'KidGym'을 제안하고, 이를 통해 최신 모델들의 한계를 규명했습니다.

Hengwei Ye, Yuanting Guan, Yuxuan Ge, Tianying Zhu, Zhenhan Guan, Yijia Zhong, Yijing Zhang, Han Zhang, Yingna Wu, Zheng Tian

게시일 2026-03-24
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

아이들의 지능 검사, AI 도 맞을까요? '키드짐 (KIDGYM)'의 이야기

이 논문은 **"최신 AI(멀티모달 언어 모델) 가 실제로 얼마나 똑똑한지, 특히 아이들의 두뇌 발달 과정을 통해 측정할 수 있을까?"**라는 흥미로운 질문에서 시작합니다.

연구팀 (상하이테크대학교) 은 아이들의 지능을 측정하는 유명한 '웨슬러 지능 검사'에서 영감을 받아, AI 를 위한 새로운 시험지 **<키드짐 (KIDGYM)>**을 만들었습니다.

이 복잡한 논문을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 '아이들' 테스트를 AI 에 적용할까요?

기존의 AI 시험은 주로 "이 그림에 뭐가 그려져 있나요?"처럼 단순한 인식 능력을 묻는 경우가 많았습니다. 하지만 진짜 똑똑한 AI 는 그림을 보고도 이해하고, 기억하고, 계획을 세워 행동할 수 있어야 합니다.

이는 마치 아이들의 지능을 볼 때 단순히 "사과가 뭐예요?"라고 묻는 게 아니라, "이 장난감을 어떻게 정리할지 계획하고, 기억해 두었다가 나중에 찾아내는 능력"을 보는 것과 같습니다. 연구팀은 AI 의 능력을 5 가지 핵심 영역으로 나누어 평가했습니다.

  • 실행 (Execution): "이해한 것을 실제로 행동으로 옮기는 능력" (예: "빨간 공을 줍기"를 듣고 실제로 공을 줍는 것)
  • 기억 (Memory): "보이지 않는 정보를 기억해 두는 능력" (예: 방금 봤던 보물 위치를 기억해 두는 것)
  • 학습 (Learning): "새로운 규칙을 금방 깨닫는 능력" (예: "지금부터는 빨간색이 파란색보다 무겁다"는 이상한 규칙을 듣고 따라하는 것)
  • 계획 (Planning): "여러 단계를 미리 짜서 목표를 달성하는 능력" (예: 열쇠를 먼저 찾고, 문을 열고, 보물을 찾는 순서 정하기)
  • 지각 추론 (Perception Reasoning): "눈으로 본 것을 논리적으로 추리하는 능력" (예: 잘린 퍼즐 조각을 보고 원래 모양이 무엇인지 맞히기)

2. '키드짐'은 어떤 시험인가요?

키드짐은 2 차원 격자 (마치 체스판이나 미니게임 화면) 위에서 이루어지는 12 가지 미션으로 구성되어 있습니다.

  • 상황: 슈퍼마켓, 농장, 식당 등 다양한 배경에서 다양한 사물 (과일, 동물, 장난감 등) 이 무작위로 배치됩니다.
  • 난이도: 쉬운 단계 (L1) 부터 어려운 단계 (L3) 까지 3 단계로 나뉘어 있습니다.
  • 특징: 매번 문제가 달라서 AI 가 과거에 풀었던 문제를 외워서 답하는 것을 방지합니다. 마치 아이에게 매번 다른 퍼즐을 주는 것과 같습니다.

비유하자면:
키드짐은 AI 에게 **"당신은 이제부터 이 게임 속 캐릭터가 되어, 주어진 규칙과 기억을 바탕으로 미션을 수행하세요"**라고 하는 것입니다.

3. 실험 결과: AI 는 얼마나 똑똑할까요?

연구팀은 최신 AI 모델들 (o3, GPT-5, Gemini, Claude 등) 을 키드짐에 투입해 시험을 치렀습니다. 결과는 매우 흥미로웠습니다.

✅ 잘하는 점 (성공)

  • 단순한 지시 수행: "빨간 사과를 바구니에 넣어" 같은 단순한 명령은 대부분의 AI 가 잘 수행했습니다.
  • 새로운 규칙 학습: "새로운 규칙을 배우고 적용하는" 능력은 일부 최상위 모델이 인간에 버금가는 성적을 내기도 했습니다.

❌ 약한 점 (실패)

하지만 AI 는 인간 아이들보다 훨씬 못 하는 부분들이 명확히 드러났습니다.

  1. 추상적인 그림을 못 읽어요:
    • 비유: "사과"나 "개" 같은 실물 그림은 잘 보지만, 기하학적 모양이나 추상적인 패턴이 섞인 퍼즐은 완전히 엉망으로 맞췄습니다. AI 는 '의미'가 있는 것만 이해하지, '형식' 자체를 논리적으로 추리하는 데는 약합니다.
  2. 개수를 세는 게 어렵습니다:
    • 비유: "여기 사과가 3 개 있어요"라고 말하면 인간은 바로 알지만, AI 는 사과 3 개가 뭉쳐 있으면 1 개로 착각하거나, 개수를 정확히 세지 못했습니다. AI 는 숫자의 '개념'보다 '이미지'에 더 의존하는 경향이 있습니다.
  3. 복잡한 미션은 혼란스러워요:
    • 비유: "기억도 해야 하고, 계획도 세우고, 동시에 규칙도 바꿔야 하는" 미션에서는 AI 가 길을 잃었습니다. 여러 가지 능력을 동시에 쓸 때, AI 는 한 가지를 잊어버리거나 순서를 헷갈려 합니다.

4. 결론: AI 는 아직 '유아' 단계?

이 논문의 핵심 메시지는 **"AI 는 언어는 잘하지만, 실제 세상을 이해하고 행동하는 '지능'은 아직 아이 수준이다"**는 것입니다.

  • 현재 상태: AI 는 특정 단순 작업에서는 천재처럼 보일 수 있지만, 예상치 못한 상황이나 복잡한 추론이 필요한 상황에서는 쉽게 무너집니다.
  • 미래 전망: 키드짐은 연구자들이 AI 의 약점을 정확히 파악하고, 더 똑똑한 AI 를 만들기 위한 나침반 역할을 합니다.

한 줄 요약:

"키드짐은 AI 에게 "너는 진짜로 똑똑한가, 아니면 단순히 말을 잘하는가?"를 확인하는, 아이들처럼 다양한 두뇌 능력을 측정하는 새로운 놀이터입니다."

이 연구를 통해 우리는 AI 가 인간처럼 유연하게 사고하고 행동하기 위해 무엇을 더 배워야 하는지 명확하게 알 수 있게 되었습니다.