ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

이 논문은 과적합과 데이터 누출 문제를 해결하고 인간이 해결 가능한 추론 규칙을 보장하기 위해, 자연어 추론 체인과 부분 평가 코드를 갖춘 461 개의 인간 검증 작업 생성기 (ARC-TGI) 를 개발하여 ARC-AGI 벤치마크의 확장 가능한 데이터 샘플링과 통제된 평가를 가능하게 했음을 소개합니다.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard, Nur A Zarin Nishat, Dhananjay Bhandiwad, Andrei Aioanei, Sahar Vahdati

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "기억력"이 아닌 "진짜 지능"을 측정하려면?

지금까지 AI 의 지능을 측정할 때는 **ARC(추상화 및 추론 코퍼스)**라는 고정된 퍼즐 세트를 사용했습니다. 이는 마치 학생들에게 항상 똑같은 수학 문제집을 주고 시험을 보는 것과 같습니다.

  • 문제: AI 가 문제를 풀 때, 문제를 이해해서 푸는 것인지, 아니면 그냥 기억해서 푸는 것인지 구별하기 어렵습니다. AI 가 문제집을 외워버리면 (과적합), 실제 지능은 낮아도 점수는 높게 나옵니다.
  • 비유: 시험지가 "고정된 책"이라서, 학생이 문제를 외우면 답을 맞출 수 있지만, 조금만 변형된 문제를 주면 엉뚱한 답을 냅니다.

2. 해결책: ARC-TGI (문제 생성기 목록)

저자들은 이 문제를 해결하기 위해 ARC-TGI라는 도구를 만들었습니다. 이는 고정된 문제집 대신, **"무한히 변형 가능한 문제 생성기"**를 제공하는 것입니다.

  • 핵심 아이디어: 하나의 퍼즐을 '고정된 이미지'가 아니라, **'규칙을 가진 가족 (Task Family)'**으로 봅니다.
  • 비유:
    • 기존 방식: "이 그림을 보고 답을 맞춰라" (고정된 그림).
    • ARC-TGI 방식: "이 그림의 규칙은 '빨간색 공을 파란색으로 바꾸고 오른쪽으로 옮기는 것'이야. 이제 이 규칙을 적용해서 색깔, 크기, 모양이 다른 새로운 그림들을 무한히 만들어봐."

이렇게 하면 AI 는 특정 그림을 외울 수 없고, 규칙 자체를 이해해야만 문제를 풀 수 있습니다.

3. 이 시스템의 특별한 기능 3 가지

이 생성기는 단순히 무작위로 그림을 만드는 게 아니라, 매우 정교하게 설계되었습니다.

① "규칙을 가르치는 설명서" (Reasoning Chain Templates)

AI 가 문제를 풀 때, 단순히 답만 내는 게 아니라 어떻게 생각했는지를 설명할 수 있어야 합니다.

  • 비유: 수학 문제를 풀 때, 답만 적는 게 아니라 "이유는 A 이고, B 공식을 썼기 때문에 C 가 된다"는 풀이 과정을 함께 만들어줍니다. 이 설명은 AI 가 문제를 풀 때 따라야 할 '지도' 역할을 합니다.

② "수학 선생님의 검증" (Human-Validated)

컴퓨터가 만든 문제가 너무 어렵거나, 규칙이 모호하면 안 됩니다.

  • 비유: 이 생성기는 사람이 직접 만들어서 **"이 문제는 인간도 풀 수 있고, 규칙이 명확한가?"**를 확인합니다. AI 가 만든 코드를 사람이 다시 다듬어서, "아, 이 부분은 너무 헷갈리네. 고쳐야겠다"라고 수정합니다.

③ "문제와 답의 완벽한 연결" (Task-Level Constraints)

훈련 문제 (예제) 만으로는 규칙을 추론할 수 없게 만드는 실수를 방지합니다.

  • 비유: "빨간 공을 파란색으로 바꾼다"는 규칙을 가르치려면, 훈련 문제에 빨간 공이 반드시 있어야 합니다. 만약 훈련 문제에는 빨간 공이 없고, 시험 문제에만 빨간 공이 있다면 AI 는 규칙을 알 수 없죠. ARC-TGI 는 훈련 문제들이 모여서 규칙을 완벽하게 설명하도록 자동으로 조정합니다.

4. 실험 결과: AI 는 어떻게 반응했나?

저자들은 이 새로운 시스템으로 다양한 AI 모델 (LLM) 을 테스트했습니다.

  • 결과: 현재 AI 는 이 새로운 방식의 퍼즐을 풀 때 여전히 어려움을 겪고 있습니다.
    • 비유: AI 는 "외운 문제"는 잘 풀지만, "규칙을 적용해야 하는 새로운 문제"에서는 많이 틀립니다.
    • 하지만, 이 시스템으로 **추가 학습 (Fine-tuning)**을 시키면 AI 의 실력이 눈에 띄게 향상되었습니다. 특히, 규칙을 이해하는 능력이 길러졌습니다.
  • 의미: 이는 AI 가 단순히 데이터를 외우는 것을 넘어, 진짜 추론 능력을 기를 수 있는 훈련 방법이 있다는 것을 보여줍니다.

5. 요약: 왜 이 연구가 중요한가?

이 논문은 AI 연구계에 "고정된 시험지"를 버리고, "규칙 기반의 동적인 학습 환경"으로 나아가자고 제안합니다.

  • 기존: "이 문제를 외워라." (AI 가 속임수를 쓸 수 있음)
  • ARC-TGI: "이 규칙을 이해하고, 변형된 문제에 적용해봐." (AI 의 진짜 지능을 측정 가능)

마치 주사위를 굴려서 새로운 문제를 만들어내는 게임처럼, ARC-TGI 는 AI 가 어떤 상황에서도 유연하게 생각할 수 있는지, 진정한 '지능'을 가지고 있는지 검증할 수 있는 새로운 기준을 제시합니다.

한 줄 요약:

"AI 가 문제를 '외우는' 게 아니라 '이해'하는지 확인하기 위해, 고정된 문제집 대신 규칙을 기반으로 무한히 변형되는 문제 생성기를 만들었습니다."