Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3: 인공지능이 '생각'하는 법을 배우는 새로운 시험지

이 논문은 2026 년 3 월에 발표된, 인공지능 (AI) 의 지능을 측정하는 새로운 기준인 **'ARC-AGI-3'**에 대한 소개입니다. 이전 버전들 (ARC-AGI-1, 2) 이 정적인 퍼즐을 푸는 능력을 테스트했다면, 이번 버전은 **인간처럼 새로운 세상을 탐험하고 목표를 스스로 찾아내는 '주체적인 AI(에이전트)'**를 평가합니다.

이 복잡한 내용을 일상적인 비유와 함께 쉽게 설명해 드리겠습니다.

1. 왜 새로운 시험이 필요한가요? (과거의 실패)

과거의 AI 시험 (ARC-AGI-1, 2) 은 마치 **"새로운 수학 문제집"**을 푸는 것과 같았습니다.

과거의 방식: AI 는 방대한 양의 문제와 해답을 외워서 (암기), 비슷한 문제가 나오면 정답을 찾아냈습니다. 하지만 전혀 새로운 문제나, 문제집에 없는 상황에서는 당황했습니다.
현재의 문제: 최신 AI 는 이 '암기'와 '유추'를 잘해서 과거 시험에서는 점수가 꽤 나왔습니다. 하지만 이는 진짜 지능이 아니라, **"과거에 본 문제와 비슷한 패턴을 찾아내는 능력"**일 뿐입니다. 마치 시험지를 미리 훔쳐본 학생이 문제를 푸는 것과 비슷합니다.

그래서 연구팀은 **"AI 가 정말로 지능이 있는가, 아니면 그냥 암기만 잘하는가?"**를 가려내기 위해 완전히 새로운 시험지를 만들었습니다.

2. ARC-AGI-3 은 어떤 시험인가요? (새로운 게임)

ARC-AGI-3 은 **"미지의 섬에 떨어진 탐험가"**가 되는 게임입니다.

상황: AI 는 64x64 격자 (게임 화면) 안에 떨어집니다.
규칙: 어떤 설명서도, 목표도, 언어도 없습니다. "이걸 해라", "저걸 해라"라는 말은 전혀 없습니다.
과제:
1. 탐험 (Exploration): 주변을 두리번거리며 "여기서 뭐가 가능한지?"를 알아내야 합니다. (예: 벽에 부딪히면 튕기는가? 물체는 움직이는가?)
2. 모델링 (Modeling): 관찰한 것을 바탕으로 "이 세상의 법칙은 이런 거구나"라는 규칙을 머릿속에 그려야 합니다.
3. 목표 설정 (Goal-Setting): "내가 무엇을 해야 이 게임에서 이길까?"라는 목표를 스스로 찾아내야 합니다. (누군가 "승리하라"고 말해주지 않습니다.)
4. 계획 및 실행 (Planning): 찾은 규칙과 목표를 바탕으로 가장 효율적인 길을 찾아 행동해야 합니다.

비유하자면:

과거 시험이 **"주어진 레시피대로 케이크를 만드는 능력"**이었다면,
ARC-AGI-3 은 **"냉장고에 있는 재료만 보고, 레시피 없이 맛있는 요리를 만들어내는 능력"**을 보는 것입니다.

3. 점수는 어떻게 매기나요? (효율성)

이 시험에서 가장 중요한 것은 **"정답을 맞췄는지"**가 아니라 **"얼마나 적은 노력으로 맞췄는지"**입니다.

인간 기준선: 인간이 이 게임에 처음 왔을 때, 평균적으로 몇 번의 클릭 (행동) 으로 문제를 해결하는지 측정합니다.
점수 계산: AI 가 문제를 풀 때 인간보다 더 적은 행동으로 풀면 100 점, 더 많은 행동을 쓰면 점수가 급격히 떨어집니다.
- 예시: 인간이 10 번 클릭으로 문제를 풀었는데, AI 가 100 번 클릭으로 풀었다면? AI 는 멍청하게 무작위 클릭을 한 것입니다. 점수는 매우 낮아집니다.
핵심: AI 가 "시행착오"를 많이 반복하며 우연히 문제를 풀면 (브루트 포스), 그건 지능이 아니라 운일 뿐이므로 점수를 주지 않습니다. 빠르고 똑똑하게 문제를 해결하는 것이 진짜 지능입니다.

4. 시험의 특징: "공부"를 금지합니다

이 시험의 가장 무서운 점은 AI 가 시험지를 미리 볼 수 없다는 것입니다.

공개된 데모: 시험의 형식을 보여주는 쉬운 게임들만 공개됩니다.
비공개 시험지: 실제 점수를 매기는 게임들은 AI 개발자들에게 절대 공개되지 않습니다.
목적: AI 가 "이런 게임은 이렇게 풀어야 해"라는 공식을 외우는 것을 막고, 완전히 새로운 환경에 들어갔을 때 어떻게 적응하는지 보는 것입니다.

5. 현재 AI 는 얼마나 잘하나요? (현실적인 결과)

2026 년 3 월 기준, 가장 똑똑한 AI 들 (구글, 오픈AI, 앤스로픽 등) 이 이 시험을 봤습니다. 결과는 충격적입니다.

인간: 100% 성공합니다. 누구나 몇 분 안에 해결합니다.
최고급 AI: 1% 미만의 점수입니다.
- AI 들은 게임의 규칙을 이해하지 못하거나, 목표를 찾지 못해 헤매기만 합니다.
- 인간이 10 번의 행동으로 해결하는 문제를, AI 는 수천 번의 무작위 행동을 하거나 아예 포기합니다.

이는 AI 가 여전히 **"지식 (데이터) 이 많은 책상 위 학생"**일 뿐, **"새로운 상황을 마주하는 생존자"**는 아니라는 것을 보여줍니다.

6. 결론: 왜 이 시험이 중요한가요?

ARC-AGI-3 은 단순히 점수를 매기는 게임이 아닙니다.

진짜 지능의 척도: AI 가 인간의 '유연한 적응 능력'을 따라갈 수 있는지, 아니면 여전히 특정 데이터에만 의존하는지 가르는 기준입니다.
미래의 길: 만약 AI 가 이 시험에서 인간과 비슷한 점수를 낸다면, 우리는 이제 AI 가 새로운 직업을 배우거나, 과학적 발견을 하거나, 예측 불가능한 위기 상황에서 스스로 판단할 수 있는 시대가 왔다는 뜻입니다.

한 줄 요약:

"ARC-AGI-3 은 AI 에게 **"설명서 없이 낯선 곳에 던져졌을 때, 스스로 길을 찾아 헤매지 않고 똑똑하게 문제를 해결할 수 있느냐?"**를 묻는, 가장 까다롭지만 가장 중요한 시험입니다."

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3: 최전선 에이전트 지능을 위한 새로운 도전

1. 문제 제기 (Problem)

기존의 ARC-AGI-1 및 ARC-AGI-2 벤치마크는 정적 (static) 인 입력 - 출력 쌍을 통해 추론 능력을 평가했으나, 최신 대규모 추론 모델 (LRM) 의 발전으로 인해 이러한 정적 벤치마크가 훈련 데이터의 암기나 고차원적 단축 경로 (shortcut) 를 통해 우회될 위험이 커졌습니다. 또한, 현재의 AI 는 특정 도메인 지식이 있거나 검증 가능한 피드백이 주어질 때만 작동하며, 새로운 환경에서 목표를 스스로 추론하고, 환경을 탐색하며, 장기적인 계획을 수립하는 에이전트 지능 (Agentic Intelligence) 과 유동적 적응성 (Fluid Adaptability) 측면에서는 인간 수준에 크게 미치지 못합니다.

따라서, 단순한 패턴 매칭이나 암기를 배제하고, 지시 없이 새로운 환경의 규칙을 스스로 파악하고 목표를 설정하며 행동하는 상호작용적 추론 능력을 평가할 수 있는 새로운 벤치마크가 필요했습니다.

2. 방법론 (Methodology)

가. 환경 설계 (Environment Design)

상호작용적 턴 기반 환경: ARC-AGI-3 은 실시간 반응이 아닌 턴 기반 (turn-based) 인터페이스를 사용하여 에이전트가 환경과 상호작용하며 정보를 획득하도록 설계되었습니다.
핵심 구성 요소: 에이전트는 다음 4 가지 기능을 수행해야 합니다.
1. 탐색 (Exploration): 수동적으로 제공되지 않는 정보를 능동적으로 획득.
2. 모델링 (Modeling): 관찰 데이터를 일반화 가능한 세계 모델로 변환.
3. 목표 설정 (Goal-Setting): 명시적 지시 없이 환경 단서를 바탕으로 달성할 목표를 스스로 추론.
4. 계획 및 실행 (Planning & Execution): 현재 상태에서 목표 상태까지의 경로 계획 및 실행.
제약 조건:
- 핵심 지식 (Core Knowledge) 만 사용: 언어, 문화적 기호, 외부 지식 없이 물체성, 기하학, 기본 물리, 에이전트성 등 선천적 추론 능력만 의존.
- 새로움 (Novelty): 기존 게임이나 이전 벤치마크와 중복되지 않는 완전히 새로운 메커니즘.
- 인간 해결 가능성: 모든 환경은 훈련 없이 인간이 약 20 분 이내에 해결할 수 있어야 함 (100% 해결 가능).

나. 데이터셋 구성

공개 데모 세트 (Public Demo): 환경 형식을 보여주는 쉬운 25 개 환경.
반비밀 세트 (Semi-Private): 외부 API 를 통한 모델 테스트용 55 개 환경.
완전 비공개 세트 (Fully Private): 공식 경쟁용 55 개 환경 (데이터 유출 방지).
전체 구성: 총 135 개 이상의 환경으로 구성되며, 공개 세트와 비공개 세트 간의 분포를 다르게 하여 과적합 (Overfitting) 을 방지합니다.

다. 평가 지표 (Scoring Framework)

상대적 인간 행동 효율성 (RHAE - Relative Human Action Efficiency):
- 지능을 "작업 완료"가 아닌 자원 효율성 (행동 횟수) 으로 정의합니다.
- 공식: $S_{l,e} = \min(1.0, \frac{h_{l,e}}{a_{l,e}})^2$ $S_{l, e} = min (1.0, \frac{h _{l, e}}{a _{l, e}})^{2}$
  - $a_{l,e}$ : AI 의 행동 횟수, $h_{l,e}$ : 인간 기준 (2 번째로 잘한 인간의 행동 횟수).
  - 제곱 (Power-law): 비효율적인 해결책에 대한 페널티를 가중치 있게 부과하여 인간 수준의 효율성과의 차이를 명확히 구분합니다.
- 가중치: 환경 내 레벨이 진행될수록 (난이도 상승) 가중치가 증가하여 초기 튜토리얼 레벨보다 후반 레벨의 점수 기여도를 높입니다.
컷오프 (Cutoff): 인간 평균 행동 횟수의 5 배를 초과하면 해당 레벨 수행을 중단하여 비용 효율성을 고려합니다.

라. 검증 프로세스

인간 교정 (Human Calibration): 각 환경은 10 명의 일반인에게 테스트되어 최소 2 명이 성공해야 포함됩니다. 실패 사례 분석을 통해 모호한 메커니즘을 수정합니다.
자동화 검증: 무작위 플레이 (Random Play) 를 통해 우연한 성공 확률이 1/10,000 미만인지, 상태 공간 그래프를 통해 구조적 결함이 없는지 검증합니다.

3. 주요 기여 (Key Contributions)

에이전트 지능 벤치마크의 전환: 정적 추론에서 상호작용적, 자율적 에이전트 능력 평가로 패러다임을 전환했습니다.
효율성 중심 평가: 단순히 문제를 푸는 것뿐만 아니라, 최소한의 행동으로 해결하는 효율성을 지능의 핵심 척도로 도입했습니다.
과적합 방지 설계:
- 공개 세트와 비공개 세트의 분포를 의도적으로 다르게 하여 (Out-of-Distribution), 훈련 데이터 기반의 암기나 특정 전략 최적화를 무력화했습니다.
- "하드웨어 (Harness)" 없이 모델 자체의 일반화 능력을 평가하는 공식 리더보드를 도입했습니다.
새로운 평가 프레임워크: 인간 행동 기준을 기반으로 한 RHAE 지표를 통해 생물학적 에이전트와 인공 에이전트의 성능을 정량적으로 비교할 수 있는 표준을 제시했습니다.

4. 결과 (Results)

인간 성능: 인간은 훈련 없이 모든 환경에서 100% 해결 가능하며, 평균적으로 각 레벨을 10~300 초 내에 해결합니다.
AI 성능 (2026 년 3 월 기준):
- 최전선 모델 (Gemini 3.1 Pro, GPT 5.4, Opus 4.6 등) 의 점수는 1% 미만입니다.
- 구체적 점수:
  - Google Gemini 3.1 Pro Preview: 0.37%
  - OpenAI GPT 5.4: 0.26%
  - Anthropic Opus 4.6: 0.25%
  - xAI Grok-4.20: 0.00%
경쟁 결과: 2025 년 7 월 진행된 프리뷰 대회에서 최상위 모델 (StochasticGoose) 이 12.58% 를 기록했으나, 이는 공개된 3 개 환경에 대한 결과이며, 비공개 환경으로의 일반화 능력은 여전히 미미했습니다.

5. 의의 및 결론 (Significance)

AGI 의 현재 한계 확인: 최신 LRM 은 특정 도메인 지식이 있거나 검증 가능한 피드백이 주어질 때만 작동하며, 지시 없이 새로운 환경의 규칙을 추론하고 목표를 설정하는 능력에서는 인간과 여전히 큰 격차가 있음을 입증했습니다.
벤치마크의 진화 필요성: 정적 데이터셋은 훈련 데이터가 방대해지면 과적합되기 쉽다는 점을 지적하며, 상호작용적이고 역동적인 환경이 AGI 평가의 필수 요소임을 강조했습니다.
미래 연구 방향: ARC-AGI-3 은 에이전트 AI 시스템이 어떻게 학습하고, 적응하며, 불확실성 하에서 행동하는지 연구할 수 있는 플랫폼을 제공합니다. 이는 단순한 성능 향상이 아닌, 진정한 일반 지능 (AGI) 의 도달을 측정하는 중요한 이정표가 될 것입니다.

이 논문은 2026 년 3 월 현재, ARC-AGI-3 이 포화되지 않은 유일한 일반 에이전트 지능 벤치마크임을 주장하며, AI 연구계가 정적 추론을 넘어선 에이전트 능력 개발에 집중해야 함을 시사합니다.

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

ARC-AGI-3: 인공지능이 '생각'하는 법을 배우는 새로운 시험지

1. 왜 새로운 시험이 필요한가요? (과거의 실패)

2. ARC-AGI-3 은 어떤 시험인가요? (새로운 게임)

3. 점수는 어떻게 매기나요? (효율성)

4. 시험의 특징: "공부"를 금지합니다

5. 현재 AI 는 얼마나 잘하나요? (현실적인 결과)

6. 결론: 왜 이 시험이 중요한가요?

ARC-AGI-3: 최전선 에이전트 지능을 위한 새로운 도전

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design