ARC-AGI-2 Technical Report

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"ARC-AGI"**라는 매우 까다로운 퍼즐 대회에서 인간 수준에 가까운 추론 능력을 보여준 인공지능 시스템에 대한 기술 보고서입니다. 쉽게 말해, **"적은 예시만 보고도 새로운 문제를 해결하는 AI"**를 만드는 방법을 설명한 것입니다.

이 시스템을 만든 연구팀 (월리슨 레메스 데 올리베이라 등) 은 이 AI 가 단순히 패턴을 외우는 게 아니라, 문제의 '원리'를 깨닫고 적응할 수 있도록 설계했다고 합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🧩 1. 문제: "왜 AI 는 퍼즐을 못 풀까?"

기존의 AI 는 방대한 양의 데이터를 보고 "A 가 나오면 B 가 온다"는 식으로 암기에 가깝게 학습합니다. 하지만 ARC 퍼즐은 예시가 3~4 개뿐입니다. 마치 한 번만 본 요리 레시피로 완전히 새로운 요리를 만들어야 하는 상황과 같습니다.

기존 AI 는 이걸 못 합니다. 하지만 이 연구팀은 AI 가 수학자처럼 추론하게 만들었습니다.

🛠️ 2. 해결책: 4 가지 핵심 전략 (비유로 설명)

연구팀은 AI 를 훈련시키기 위해 네 가지 마법 같은 도구를 사용했습니다.

① "작은 책상"에 모든 것을 정리하기 (효율적인 인코딩)

비유: AI 가 퍼즐을 볼 때, 화면 전체를 한 번에 보지 않고 한 장의 작은 메모지에 모든 정보를 간결하게 적어 넣는다고 상상해보세요.
설명: 보통 AI 는 긴 문장을 읽느라 지치지만, 이 팀은 퍼즐 정보를 125 개의 작은 토큰 (단어) 으로만 압축했습니다. 마치 복잡한 지도를 한 장의 작은 스티커로 바꾸어 AI 가 훨씬 빠르게 핵심을 파악하게 한 것입니다.

② "거울과 회전"으로 여러 각도에서 보기 (데이터 증강)

비유: 퍼즐을 풀 때, 거울에 비춰보거나, 90 도 돌리거나, 뒤집어 보는 것을 상상해보세요. "아, 이 모양이 뒤집히면 저렇게 변하는구나!"라고 깨닫는 순간입니다.
설명: AI 에게 같은 퍼즐을 다양한 각도 (회전, 반전, 색상 변경 등) 로 보여줬습니다. 이렇게 하면 AI 는 "특정 방향의 모양"을 외우는 게 아니라, 변화하는 '법칙' 자체를 배우게 됩니다.

③ "시험 직전 마지막 복습" (테스트 타임 트레이닝, TTT)

비유: 시험을 치르기 직전, 그날 출제된 문제의 유형만 딱 맞춰서 5 분간 집중적으로 공부하는 상황입니다.
설명: 보통 AI 는 한 번 학습하면 고정됩니다. 하지만 이 시스템은 **새로운 퍼즐을 볼 때마다, 그 퍼즐의 예시만 보고 5 분 동안 스스로를 미세하게 조정 (LoRA)**합니다. 마치 시험장에서 문제를 보고 "아, 이 문제는 이런 식으로 풀어야겠다!"라고 머리를 빠르게 회전시키는 것과 같습니다.

④ "여러 관점의 심사위원" (대칭성 기반 점수 매기기)

비유: 여러 명의 심사위원이 퍼즐 답안을 검토할 때, 한 명은 정면에서, 다른 이는 옆에서, 또 다른 이는 거울로 비춰보며 "이 답이 진짜 맞나?"를 확인하는 것입니다.
설명: AI 가 만든 답안이 여러 개 있을 때, 그 답이 회전되거나 뒤집혀도 여전히 논리적으로 맞는지 확인합니다. 만약 어떤 답안이 한 각도에서는 맞는데 다른 각도에서는 엉망이라면, 그것은 운 좋게 맞은 것일 뿐이므로 제외합니다. 이렇게 여러 관점에서 일관성을 가진 답만 골라냅니다.

🚀 3. 결과: 어떻게 변했나?

이 시스템은 Kaggle(데이터 과학 대회) 에서 다음과 같은 성과를 냈습니다.

초기: AI 가 처음엔 3.75% 만 맞췄습니다. (아직 어리숙한 상태)
중반: "작은 책상" 전략과 "거울/회전" 전략을 도입하니 12% 로 올랐습니다.
최종: "시험 직전 복습 (TTT)"과 "심사위원 시스템"을 추가하자 **27%**까지 점수가 올랐습니다.
- 참고: 이 점수는 제한된 컴퓨터 자원 (4 개의 GPU) 안에서 12 시간이라는 짧은 시간 동안 낸 결과로, 매우 놀라운 성과입니다.

💡 4. 핵심 교훈: "무엇을 보느냐보다 어떻게 보느냐"

이 논문의 가장 큰 메시지는 **"AI 가 더 많은 데이터를 외우는 것보다, 문제를 바라보는 '관점'을 다양하게 갖는 것이 중요하다"**는 것입니다.

같은 퍼즐을 거울로 비추거나, 뒤집거나, 다른 순서로 읽게 하는 것만으로도 AI 의 추론 능력이 비약적으로 발전했습니다.
이는 인간이 새로운 문제를 풀 때, "이 문제를 다른 각도에서 보면 어떨까?"라고 생각하며 해결책을 찾는 방식과 매우 비슷합니다.

🏁 결론

이 연구팀은 AI 에게 단순한 암기 대신 '유연한 사고'를 심어주었습니다.
AI 가 퍼즐을 풀 때, 거울을 들고 돌아다니며 (데이터 증강), 시험 직전에 집중해서 (TTT), 여러 각도에서 답을 검증하는 (심사위원 시스템) 과정을 통해, 인간처럼 추론하는 AI 로 한 걸음 더 다가섰습니다.

이 기술은 앞으로 자율주행차가 예상치 못한 도로 상황을 처리하거나, 의사가 희귀한 병증을 진단할 때처럼, 적은 정보로 빠르게 추론해야 하는 모든 분야에 적용될 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

ARC (Abstract Reasoning Corpus) 는 프랑수아 콜레 (François Chollet) 가 제안한 인공지능 벤치마크로, 적은 수의 예시 (few-shot) 에서 추상적인 규칙을 추론하고 일반화하는 능력을 평가합니다.

핵심 난제: 기존 머신러닝 모델은 대량의 데이터와 패턴 매칭에 의존하지만, ARC 는 소수의 예시에서 논리적 규칙을 도출해야 하므로 전통적인 접근법으로 해결하기 어렵습니다.
ARC-AGI-2: 2025 년에 도입된 더 발전된 버전으로, 그리드 크기가 최대 30x30 으로 커지고 색상이 10 가지까지 사용되며, 여러 개의 구성 규칙을 순차적으로 적용해야 하는 복잡한 과제를 포함합니다.
제약 조건: Kaggle 평가 환경은 4 개의 L4 GPU 를 사용하여 12 시간 내에 240 개의 과제를 해결해야 하는 엄격한 컴퓨팅 제한이 있습니다.

2. 방법론 (Methodology)

연구진은 LongT5 (약 2 억 파라미터) 인코더 - 디코더 아키텍처를 기반으로 한 모듈형 파이프라인을 설계했습니다. 주요 방법은 네 가지 핵심 아이디어로 구성됩니다.

2.1. 시퀀스 모델링 및 효율적인 인코딩

컴팩트 토큰화: ARC 그리드 작업을 125 개의 토큰으로만 구성된 간결한 시퀀스로 변환했습니다. 이는 기존 32,000 개 이상의 어휘를 줄여 모델 파라미터를 250M 에서 201M 로 감소시켰으며, LongT5 아키텍처를 통해 긴 컨텍스트 (최대 10,000 토큰) 를 효율적으로 처리할 수 있게 했습니다.
LongT5 아키텍처: 인코더에는 'Transient Global Attention (TGlobal)'을 사용하여 국소적 이웃과 전역적 토큰 간의 상호작용을 모두 포착하도록 설계했습니다. 디코더는 표준 T5 방식의 인과적 자기 주의를 사용합니다.

2.2. 구조 인식 데이터 증강 (Structure-Aware Augmentation)

훈련 데이터의 부족을 해결하고 일반화 능력을 향상시키기 위해 세 가지 원칙에 기반한 증강 기법을 도입했습니다.

대칭성 (Symmetry) 기반: 회전 (90°, 180°, 270°) 및 반사 (수평/수직/대각선) 를 포함한 $D_4$ 군 변환을 적용하여 데이터의 의미론적 일관성을 유지하면서 8 배 확장했습니다.
셀룰러 오토마타 (Cellular Automata): 국소적 전이 규칙을 사용하여 입력/출력 그리드에 변형을 가해 75 만 개 이상의 새로운 합성 과제를 생성했습니다. 이는 모델이 표면적인 픽셀 패턴이 아닌 규칙 자체를 학습하도록 유도합니다.
탐색 (Traversal) 기반: 그리드를 행 단위 (row-by-row) 또는 뱀형 (snake/zig-zag) 으로 시리얼화하여 모델이 특정 공간적 표현에 편향되지 않고 변환 규칙을 추상화하도록 했습니다.

2.3. 테스트 시간 훈련 (Test-Time Training, TTT)

개념: 추론 단계에서 각 미지의 과제를 위해 경량화된 LoRA (Low-Rank Adaptation) 를 사용하여 모델을 미세 조정합니다.
구현: 주어진 과제의 데모 예시들을 기반으로 LoRA (Rank=8) 를 적용하여 모델이 해당 과제의 특정 논리에 빠르게 적응하도록 합니다. 이는 과적합을 방지하면서도 태스크별 특화 (specialization) 를 가능하게 합니다.
외부 메모리: 유사한 과제를 벡터 데이터베이스에서 검색하여 TTT 시 추가 학습 데이터로 활용합니다.

2.4. 대칭성 인식 스코링 및 디코딩

디코딩: 빔 서치 (Beam Search, Beam=10) 를 사용하여 여러 후보 솔루션을 생성합니다.
스코링 (Mini-Arch): 생성된 후보들에 대해 8 가지 대칭 변환 (회전/반사) 을 적용하여 모델의 로그 가능도 (log-likelihood) 를 집계합니다. 올바른 해답은 대칭 변환에 대해 일관된 높은 점수를 보이는 반면, 잘못된 해답은 불안정한 점수를 보입니다. 이를 통해 가장 일관된 해답을 선택합니다.
필터링: 기호적 사전 지식 (색상 일관성, 그리드 크기, 포함 관계 등) 을 기반으로 불가능한 후보를 사전에 제거합니다.

3. 주요 기여 (Key Contributions)

오프라인 훈련 레시피: 커리큘럼 학습, 멀티태스크 학습 (해결 및 이해), 그리고 'Grokking'(과적합 후 갑작스러운 일반화) 현상을 유도하는 전략을 결합한 훈련 파이프라인을 설계했습니다.
TTT 를 통한 태스크별 적응: 기존 파인튜닝과 달리, LoRA 와 외부 메모리를 활용한 경량화된 테스트 시간 훈련을 도입하여 모델이 실시간으로 새로운 규칙을 학습하게 했습니다.
구조 인식 데이터 증강: 대칭성, 오토마타, 그리드 탐색을 결합하여 모델이 규칙 추론을 내재화하도록 유도하는 강력한 증강 전략을 제시했습니다.
대칭성 인식 스코링: 단일 표현에 의존하지 않고 여러 관점 (대칭 변환) 에서의 일관성을 기반으로 해답을 선별하는 새로운 평가 파이프라인을 구축했습니다.

4. 결과 (Results)

성능: Kaggle 평가 세트에서 27.08% (pass@2) 의 점수를 기록하여 이전 신경망 기반 ARC 솔버들을 능가했습니다.
- 초기 Llama3.1 1B 모델: 3.75%
- LongT5 전환 후: 7.08%
- TTT 및 Grokking 도입 후: 19.86% → 25.00%
- 멀티태스크 학습 및 최종 최적화: 27.08%
내부 벤치마크: 177 개의 인간 제작 과제로 구성된 내부 평가 세트에서 pass@2 기준 45.99% 의 성능을 보였습니다.
컴퓨팅 효율성: 4 개의 L4 GPU 환경에서 12 시간 제한 내에 240 개 과제를 처리할 수 있도록 최적화되었습니다 (H100 기준 177 개 과제 처리 시간: 약 2.42 시간).
Ablation Study:
- TTT 제거 시: 성능이 약 33%p 급감하여 TTT 의 중요성을 입증했습니다.
- 필터링 제거 시: 잘못된 후보가 많아져 최종 정확도가 14%p 하락했습니다.
- 탐색 (Traversal) 증강 제거 시: 약 6%p 의 성능 저하가 발생하여 표현의 다양성이 일반화에 필수적임을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 신경망 아키텍처와 지식 사전 지식 (priors) 의 결합이 추상 추론 문제 해결에 얼마나 중요한지를 입증했습니다.

일반화 능력: 단순히 패턴을 기억하는 것을 넘어, 다양한 관점 (대칭성, 탐색 순서) 을 통해 규칙을 추상화하는 능력이 ARC 와 같은 과제를 해결하는 핵심임을 보였습니다.
적응성: 테스트 시간 훈련 (TTT) 은 대규모 컨텍스트 윈도우 없이도 모델이 새로운 태스크에 빠르게 적응할 수 있게 하는 효율적인 대안으로 제시되었습니다.
미래 방향: 이 접근법은 자연어 처리 (의미론적 일관성), 로봇 공학 (시각적 계획), 그리고 안전 필수 시스템 (데이터 분포 변화에 대한 적응) 등 다양한 분야로 확장될 수 있는 잠재력을 가지고 있습니다.

결론적으로, 이 팀은 규모 확장 (Scale) 만이 아닌 구조적 변형, 표현의 다양성, 그리고 관점의 변화를 통해 인간 수준의 추론 능력에 한 걸음 더 다가가는 모델을 개발했습니다.