ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

이 논문은 언어와 외부 지식 없이 오직 핵심 지식 선입견과 환경 역학 추론만으로 새로운 과제를 해결하는 능력을 평가하기 위해 고안된, 인간은 100% 해결하지만 2026 년 3 월 기준 최첨단 AI 는 1% 미만만 달성하는 새로운 인터랙티브 벤치마크인 'ARC-AGI-3'의 설계, 평가 체계 및 검증 방법을 제시합니다.

ARC Prize Foundation

게시일 2026-03-27
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3: 인공지능이 '생각'하는 법을 배우는 새로운 시험지

이 논문은 2026 년 3 월에 발표된, 인공지능 (AI) 의 지능을 측정하는 새로운 기준인 **'ARC-AGI-3'**에 대한 소개입니다. 이전 버전들 (ARC-AGI-1, 2) 이 정적인 퍼즐을 푸는 능력을 테스트했다면, 이번 버전은 **인간처럼 새로운 세상을 탐험하고 목표를 스스로 찾아내는 '주체적인 AI(에이전트)'**를 평가합니다.

이 복잡한 내용을 일상적인 비유와 함께 쉽게 설명해 드리겠습니다.


1. 왜 새로운 시험이 필요한가요? (과거의 실패)

과거의 AI 시험 (ARC-AGI-1, 2) 은 마치 **"새로운 수학 문제집"**을 푸는 것과 같았습니다.

  • 과거의 방식: AI 는 방대한 양의 문제와 해답을 외워서 (암기), 비슷한 문제가 나오면 정답을 찾아냈습니다. 하지만 전혀 새로운 문제나, 문제집에 없는 상황에서는 당황했습니다.
  • 현재의 문제: 최신 AI 는 이 '암기'와 '유추'를 잘해서 과거 시험에서는 점수가 꽤 나왔습니다. 하지만 이는 진짜 지능이 아니라, **"과거에 본 문제와 비슷한 패턴을 찾아내는 능력"**일 뿐입니다. 마치 시험지를 미리 훔쳐본 학생이 문제를 푸는 것과 비슷합니다.

그래서 연구팀은 **"AI 가 정말로 지능이 있는가, 아니면 그냥 암기만 잘하는가?"**를 가려내기 위해 완전히 새로운 시험지를 만들었습니다.

2. ARC-AGI-3 은 어떤 시험인가요? (새로운 게임)

ARC-AGI-3 은 **"미지의 섬에 떨어진 탐험가"**가 되는 게임입니다.

  • 상황: AI 는 64x64 격자 (게임 화면) 안에 떨어집니다.
  • 규칙: 어떤 설명서도, 목표도, 언어도 없습니다. "이걸 해라", "저걸 해라"라는 말은 전혀 없습니다.
  • 과제:
    1. 탐험 (Exploration): 주변을 두리번거리며 "여기서 뭐가 가능한지?"를 알아내야 합니다. (예: 벽에 부딪히면 튕기는가? 물체는 움직이는가?)
    2. 모델링 (Modeling): 관찰한 것을 바탕으로 "이 세상의 법칙은 이런 거구나"라는 규칙을 머릿속에 그려야 합니다.
    3. 목표 설정 (Goal-Setting): "내가 무엇을 해야 이 게임에서 이길까?"라는 목표를 스스로 찾아내야 합니다. (누군가 "승리하라"고 말해주지 않습니다.)
    4. 계획 및 실행 (Planning): 찾은 규칙과 목표를 바탕으로 가장 효율적인 길을 찾아 행동해야 합니다.

비유하자면:

과거 시험이 **"주어진 레시피대로 케이크를 만드는 능력"**이었다면,
ARC-AGI-3 은 **"냉장고에 있는 재료만 보고, 레시피 없이 맛있는 요리를 만들어내는 능력"**을 보는 것입니다.

3. 점수는 어떻게 매기나요? (효율성)

이 시험에서 가장 중요한 것은 **"정답을 맞췄는지"**가 아니라 **"얼마나 적은 노력으로 맞췄는지"**입니다.

  • 인간 기준선: 인간이 이 게임에 처음 왔을 때, 평균적으로 몇 번의 클릭 (행동) 으로 문제를 해결하는지 측정합니다.
  • 점수 계산: AI 가 문제를 풀 때 인간보다 더 적은 행동으로 풀면 100 점, 더 많은 행동을 쓰면 점수가 급격히 떨어집니다.
    • 예시: 인간이 10 번 클릭으로 문제를 풀었는데, AI 가 100 번 클릭으로 풀었다면? AI 는 멍청하게 무작위 클릭을 한 것입니다. 점수는 매우 낮아집니다.
  • 핵심: AI 가 "시행착오"를 많이 반복하며 우연히 문제를 풀면 (브루트 포스), 그건 지능이 아니라 운일 뿐이므로 점수를 주지 않습니다. 빠르고 똑똑하게 문제를 해결하는 것이 진짜 지능입니다.

4. 시험의 특징: "공부"를 금지합니다

이 시험의 가장 무서운 점은 AI 가 시험지를 미리 볼 수 없다는 것입니다.

  • 공개된 데모: 시험의 형식을 보여주는 쉬운 게임들만 공개됩니다.
  • 비공개 시험지: 실제 점수를 매기는 게임들은 AI 개발자들에게 절대 공개되지 않습니다.
  • 목적: AI 가 "이런 게임은 이렇게 풀어야 해"라는 공식을 외우는 것을 막고, 완전히 새로운 환경에 들어갔을 때 어떻게 적응하는지 보는 것입니다.

5. 현재 AI 는 얼마나 잘하나요? (현실적인 결과)

2026 년 3 월 기준, 가장 똑똑한 AI 들 (구글, 오픈AI, 앤스로픽 등) 이 이 시험을 봤습니다. 결과는 충격적입니다.

  • 인간: 100% 성공합니다. 누구나 몇 분 안에 해결합니다.
  • 최고급 AI: 1% 미만의 점수입니다.
    • AI 들은 게임의 규칙을 이해하지 못하거나, 목표를 찾지 못해 헤매기만 합니다.
    • 인간이 10 번의 행동으로 해결하는 문제를, AI 는 수천 번의 무작위 행동을 하거나 아예 포기합니다.

이는 AI 가 여전히 **"지식 (데이터) 이 많은 책상 위 학생"**일 뿐, **"새로운 상황을 마주하는 생존자"**는 아니라는 것을 보여줍니다.

6. 결론: 왜 이 시험이 중요한가요?

ARC-AGI-3 은 단순히 점수를 매기는 게임이 아닙니다.

  • 진짜 지능의 척도: AI 가 인간의 '유연한 적응 능력'을 따라갈 수 있는지, 아니면 여전히 특정 데이터에만 의존하는지 가르는 기준입니다.
  • 미래의 길: 만약 AI 가 이 시험에서 인간과 비슷한 점수를 낸다면, 우리는 이제 AI 가 새로운 직업을 배우거나, 과학적 발견을 하거나, 예측 불가능한 위기 상황에서 스스로 판단할 수 있는 시대가 왔다는 뜻입니다.

한 줄 요약:

"ARC-AGI-3 은 AI 에게 **"설명서 없이 낯선 곳에 던져졌을 때, 스스로 길을 찾아 헤매지 않고 똑똑하게 문제를 해결할 수 있느냐?"**를 묻는, 가장 까다롭지만 가장 중요한 시험입니다."