Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

이 논문은 무한 폭 트랜스포머가 '알고리즘적 포획 (Algorithmic Capture)'을 정의하고, 효율적 다항 시간 휴리스틱 (EPTHS) 클래스 내의 저복잡도 알고리즘에 대한 귀납적 편향을 가지며 고복잡도 알고리즘 학습에는 실패함을 이론적으로 규명합니다.

Orit Davidovich, Zohar Ringel

게시일 Fri, 13 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (특히 트랜스포머 모델) 이 정말로 '알고리즘'을 이해하고 있는가, 아니면 단순히 통계적 패턴을 외우고 있는가?"**라는 근본적인 질문에 답하려는 시도입니다.

저자들은 이 문제를 해결하기 위해 **'알고리즘 포착 (Algorithmic Capture)'**이라는 개념을 정의하고, 무한히 넓은 (이론적으로 완벽한) 인공지능 모델이 어떤 한계를 가지고 있는지 수학적으로 증명했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 핵심 질문: "진짜 이해" vs "암기"

우리가 아이에게 "2+2=4"를 가르쳤을 때, 아이가 진짜 덧셈의 원리를 이해한 걸까요? 아니면 단순히 "2+2 하면 4 라고 외운 것"일까요?

대형 언어 모델 (LLM) 도 마찬가지입니다. 수학 문제를 풀거나 논리적 추론을 할 때, 모델이 **진짜 알고리즘 (원리)**을 깨달은 것인지, 아니면 단순히 데이터의 통계적 패턴을 외워서 (Interpolation) 정답을 맞춘 것인지 구별하기 어렵습니다.

이 논문은 **"문제 크기가 아무리 커져도 (예: 숫자가 10 개든 100 만 개든) 적은 노력으로 해결할 수 있다면, 그건 진짜 알고리즘을 배운 것이다"**라고 정의합니다. 이를 **'알고리즘 포착 (Grokking)'**이라고 부릅니다.

2. 연구의 방법: "무한한 두뇌"를 시뮬레이션하다

저자들은 실제 AI 모델을 실험하기보다, 이론적으로 무한히 넓은 (Infinite-width) AI 모델을 가정했습니다.

  • 비유: 마치 "만약 우리가 무한한 두뇌와 기억력을 가진 천재를 만든다면, 그 천재가 어떤 문제를 풀 수 있을까?"라고 상상하는 것과 같습니다.
  • 이 천재는 어떤 복잡한 함수든 표현할 수 있지만, 실제로 그 천재가 문제를 풀 때 얼마나 많은 계산 (시간/에너지) 이 필요한지를 분석했습니다.

3. 주요 발견: "천재도 한계가 있다"

연구 결과는 매우 흥미롭습니다.

A. 쉬운 일은 잘하지만, 어려운 일은 못한다

  • 잘하는 일: "문장 속의 특정 단어를 찾아서 복사하기 (Induction)", "숫자 정렬하기 (Sorting)" 같은 작업은 AI 가 잘 해냅니다.
    • 비유: 이 천재는 "책장에서 특정 책을 찾아서 가져오기"나 "책장을 정리하기"는 아주 잘합니다.
  • 못하는 일: "그래프에서 A 지점에서 B 지점까지 가장 짧은 길 찾기 (Shortest Path)"나 "최대 유량 찾기 (Max Flow)" 같은 복잡한 문제는 실패합니다.
    • 비유: 이 천재는 "미로 찾기"나 "복잡한 도로망에서 최적 경로 찾기"는 아무리 가르쳐도 못 합니다.

B. 그 이유는 "계산 비용"의 한계

왜 그럴까요? AI 가 문제를 풀 때 필요한 **계산 비용 (시간)**에 한계가 있기 때문입니다.

  • AI 가 문제를 풀 때, 문제의 크기 (T) 가 커지면 계산 비용이 T 의 23 제곱 (T²T³) 정도만 증가할 수 있습니다.
  • 하지만 "최단 경로 찾기" 같은 문제는 문제 크기가 커질수록 계산 비용이 훨씬 더 급격히 (T³ 이상) 늘어납니다.
  • 결론: AI 는 계산 비용이 너무 많이 드는 복잡한 알고리즘은 원리상 배울 수 없습니다. 비유하자면, "1 분 안에 100 개의 미로를 풀 수 있는 천재"에게 "100 만 개의 미로를 1 초 만에 푸는 법"을 가르치는 것은 불가능한 것과 같습니다.

4. 실험 결과: "깊은 층 (Deep Layers) 이 답이 아니다"

많은 사람이 "AI 를 더 깊게 (층을 더 많이) 쌓으면 복잡한 문제도 풀 수 있지 않을까?"라고 생각합니다. 하지만 이 논문은 그렇지 않다고 말합니다.

  • 비유: 아무리 두꺼운 두꺼운 책을 쌓아도 (층을 깊게 해도), 그 책에 적힌 '계산 규칙' 자체가 복잡도를 극복하지 못하면, 결국 같은 한계에 부딪힙니다.
  • 실험에서도 40 층이나 되는 매우 깊은 AI 모델을 만들어도 "최단 경로 찾기" 같은 문제는 여전히 실패했습니다.

5. 요약: AI 의 본질적인 성향 (Inductive Bias)

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 는 무한한 표현력을 가졌지만, 본질적으로 '간단하고 효율적인' 알고리즘만 배우도록 설계되어 있다."

  • 쉬운 알고리즘 (정렬, 복사 등): AI 가 쉽게 포착하고 일반화합니다.
  • 복잡한 알고리즘 (최단 경로 등): 계산 비용이 너무 비싸기 때문에 AI 가 배우지 못합니다.

6. 이 연구가 우리에게 주는 교훈

이 연구는 AI 가 "모든 것을 할 수 있는 만능 천재"가 아니라, 특정한 종류의 문제 (효율적인 알고리즘) 에만 특화된 존재임을 보여줍니다.

  • 현실적인 기대: AI 가 수학이나 논리 문제를 푼다고 해서 인간처럼 '이해'를 했다고 생각하면 안 됩니다. 계산 비용이 허용되는 범위 내에서만 '패턴'을 찾아낼 뿐입니다.
  • 미래의 방향: 더 복잡한 문제를 풀게 하려면 단순히 모델을 키우는 것이 아니라, AI 의 구조를 알고리즘의 특성에 맞게 바꿔주거나 (예: 그래프 신경망 등), 계산 비용을 줄이는 새로운 방법을 찾아야 합니다.

한 줄 요약:

"AI 는 '간단한 규칙'은 금방 깨우치지만, '계산이 너무 복잡한 미로'는 아무리 가르쳐도 풀지 못한다. AI 는 천재지만, 계산 비용이라는 '지갑'이 얇기 때문이다."