ARC-AGI-2 Technical Report

이 논문은 대칭성 기반 증강, 테스트 시간 학습 (TTT) 을 통한 LoRA 적응, 그리고 다중 관점 추론을 결합한 변형된 LongT5 아키텍처를 통해 ARC-AGI-2 에서 인간 수준의 일반화 능력에 근접하는 성능을 달성한 새로운 트랜스포머 기반 시스템을 제시합니다.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"ARC-AGI"**라는 매우 까다로운 퍼즐 대회에서 인간 수준에 가까운 추론 능력을 보여준 인공지능 시스템에 대한 기술 보고서입니다. 쉽게 말해, **"적은 예시만 보고도 새로운 문제를 해결하는 AI"**를 만드는 방법을 설명한 것입니다.

이 시스템을 만든 연구팀 (월리슨 레메스 데 올리베이라 등) 은 이 AI 가 단순히 패턴을 외우는 게 아니라, 문제의 '원리'를 깨닫고 적응할 수 있도록 설계했다고 합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🧩 1. 문제: "왜 AI 는 퍼즐을 못 풀까?"

기존의 AI 는 방대한 양의 데이터를 보고 "A 가 나오면 B 가 온다"는 식으로 암기에 가깝게 학습합니다. 하지만 ARC 퍼즐은 예시가 3~4 개뿐입니다. 마치 한 번만 본 요리 레시피로 완전히 새로운 요리를 만들어야 하는 상황과 같습니다.

기존 AI 는 이걸 못 합니다. 하지만 이 연구팀은 AI 가 수학자처럼 추론하게 만들었습니다.

🛠️ 2. 해결책: 4 가지 핵심 전략 (비유로 설명)

연구팀은 AI 를 훈련시키기 위해 네 가지 마법 같은 도구를 사용했습니다.

① "작은 책상"에 모든 것을 정리하기 (효율적인 인코딩)

  • 비유: AI 가 퍼즐을 볼 때, 화면 전체를 한 번에 보지 않고 한 장의 작은 메모지에 모든 정보를 간결하게 적어 넣는다고 상상해보세요.
  • 설명: 보통 AI 는 긴 문장을 읽느라 지치지만, 이 팀은 퍼즐 정보를 125 개의 작은 토큰 (단어) 으로만 압축했습니다. 마치 복잡한 지도를 한 장의 작은 스티커로 바꾸어 AI 가 훨씬 빠르게 핵심을 파악하게 한 것입니다.

② "거울과 회전"으로 여러 각도에서 보기 (데이터 증강)

  • 비유: 퍼즐을 풀 때, 거울에 비춰보거나, 90 도 돌리거나, 뒤집어 보는 것을 상상해보세요. "아, 이 모양이 뒤집히면 저렇게 변하는구나!"라고 깨닫는 순간입니다.
  • 설명: AI 에게 같은 퍼즐을 다양한 각도 (회전, 반전, 색상 변경 등) 로 보여줬습니다. 이렇게 하면 AI 는 "특정 방향의 모양"을 외우는 게 아니라, 변화하는 '법칙' 자체를 배우게 됩니다.

③ "시험 직전 마지막 복습" (테스트 타임 트레이닝, TTT)

  • 비유: 시험을 치르기 직전, 그날 출제된 문제의 유형만 딱 맞춰서 5 분간 집중적으로 공부하는 상황입니다.
  • 설명: 보통 AI 는 한 번 학습하면 고정됩니다. 하지만 이 시스템은 **새로운 퍼즐을 볼 때마다, 그 퍼즐의 예시만 보고 5 분 동안 스스로를 미세하게 조정 (LoRA)**합니다. 마치 시험장에서 문제를 보고 "아, 이 문제는 이런 식으로 풀어야겠다!"라고 머리를 빠르게 회전시키는 것과 같습니다.

④ "여러 관점의 심사위원" (대칭성 기반 점수 매기기)

  • 비유: 여러 명의 심사위원이 퍼즐 답안을 검토할 때, 한 명은 정면에서, 다른 이는 옆에서, 또 다른 이는 거울로 비춰보며 "이 답이 진짜 맞나?"를 확인하는 것입니다.
  • 설명: AI 가 만든 답안이 여러 개 있을 때, 그 답이 회전되거나 뒤집혀도 여전히 논리적으로 맞는지 확인합니다. 만약 어떤 답안이 한 각도에서는 맞는데 다른 각도에서는 엉망이라면, 그것은 운 좋게 맞은 것일 뿐이므로 제외합니다. 이렇게 여러 관점에서 일관성을 가진 답만 골라냅니다.

🚀 3. 결과: 어떻게 변했나?

이 시스템은 Kaggle(데이터 과학 대회) 에서 다음과 같은 성과를 냈습니다.

  • 초기: AI 가 처음엔 3.75% 만 맞췄습니다. (아직 어리숙한 상태)
  • 중반: "작은 책상" 전략과 "거울/회전" 전략을 도입하니 12% 로 올랐습니다.
  • 최종: "시험 직전 복습 (TTT)"과 "심사위원 시스템"을 추가하자 **27%**까지 점수가 올랐습니다.
    • 참고: 이 점수는 제한된 컴퓨터 자원 (4 개의 GPU) 안에서 12 시간이라는 짧은 시간 동안 낸 결과로, 매우 놀라운 성과입니다.

💡 4. 핵심 교훈: "무엇을 보느냐보다 어떻게 보느냐"

이 논문의 가장 큰 메시지는 **"AI 가 더 많은 데이터를 외우는 것보다, 문제를 바라보는 '관점'을 다양하게 갖는 것이 중요하다"**는 것입니다.

  • 같은 퍼즐을 거울로 비추거나, 뒤집거나, 다른 순서로 읽게 하는 것만으로도 AI 의 추론 능력이 비약적으로 발전했습니다.
  • 이는 인간이 새로운 문제를 풀 때, "이 문제를 다른 각도에서 보면 어떨까?"라고 생각하며 해결책을 찾는 방식과 매우 비슷합니다.

🏁 결론

이 연구팀은 AI 에게 단순한 암기 대신 '유연한 사고'를 심어주었습니다.
AI 가 퍼즐을 풀 때, 거울을 들고 돌아다니며 (데이터 증강), 시험 직전에 집중해서 (TTT), 여러 각도에서 답을 검증하는 (심사위원 시스템) 과정을 통해, 인간처럼 추론하는 AI 로 한 걸음 더 다가섰습니다.

이 기술은 앞으로 자율주행차가 예상치 못한 도로 상황을 처리하거나, 의사가 희귀한 병증을 진단할 때처럼, 적은 정보로 빠르게 추론해야 하는 모든 분야에 적용될 수 있을 것입니다.