Functorial Neural Architectures from Higher Inductive Types

이 논문은 고차 유도 타입 (HIT) 을 기반으로 한 범주론적 신경 아키텍처가 구성적 일반화 문제를 해결하여 기존 모델보다 뛰어난 성능을 보인다는 것을 이론적으로 증명하고 실험적으로 검증했습니다.

Karen Sargsyan

게시일 2026-03-18
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 문제: 레고 블록을 조립하는 로봇

상상해 보세요. 로봇이 '레드 블록'과 '블루 블록'을 각각 쌓는 법을 배웠습니다.

  • 기존 AI (Transformer): 이 로봇은 블록을 쌓을 때, "아, 레드 블록이랑 블루 블록이 같이 있으면 어떡하지?"라고 모든 블록을 한 번에 훑어보며 복잡한 계산을 합니다.

    • 문제는, 로봇이 '레드 + 블루'를 배웠을 때, '블루 + 레드'나 '레드 + 레드 + 블루' 같은 새로운 조합을 만나면 당황한다는 것입니다. 모든 블록을 한 번에 보느라, 순서와 조합의 규칙을 잊어버리기 때문입니다.
    • 결과: 배운 것만 잘 하고, 새로운 조합은 엉망이 됩니다.
  • 이 논문의 제안 (HIT 기반 아키텍처): 이 로봇은 각 블록을 따로따로 만든 다음, 규칙에 따라 딱딱 붙이는 방식을 사용합니다.

    • "레드 블록은 이렇게 만들고, 블루 블록은 저렇게 만들고, 둘을 붙일 때는 '오른쪽 - 왼쪽' 규칙만 지키면 돼."
    • 결과: 어떤 조합이든 (레드 100 개든, 블루 5 개든) 규칙만 따르면 완벽하게 조립됩니다.

2. 핵심 아이디어: "수학적 건축가" vs "요리사"

저자는 AI 의 구조를 **수학의 '위상수학 (Topology)'**과 **'범주론 (Category Theory)'**이라는 도구를 이용해 설계합니다.

비유: 지도를 그리는 두 가지 방법

  • 기존 AI (Attention Mechanism): 마치 요리사처럼 모든 재료를 한 냄비에 넣고 섞습니다. "이 재료가 저 재료와 만나면 맛이 어떻게 날까?"라고 예측합니다. 하지만 재료가 너무 많으면 (문장이 길어지면) 맛이 망가집니다.
  • 새로운 AI (Functorial Architecture): 마치 건축가처럼 블록 하나하나를 미리 설계합니다.
    • HIT (고급 인덕션 타입): 이는 건축가에게 **"이 공간은 어떤 모양이고, 어떤 규칙으로 이어져야 한다"**는 설계도입니다.
    • 컴파일러: 이 설계도를 보고 AI 가 자동으로 **"이 블록은 이 모양으로 만들고, 저 블록은 저 모양으로 만들어서 붙여라"**라는 코드를 짜줍니다.
    • 결과: 설계도 (규칙) 자체가 AI 에 내장되므로, AI 가 실수할 여지가 아예 없습니다.

3. 실험 결과: 세 가지 미로 탈출하기

저자는 세 가지 다른 형태의 '미로 (공간)'에서 이 두 방식을 테스트했습니다.

  1. 토러스 (Torus, 도넛 모양):

    • 규칙이 단순합니다 (A+B = B+A).
    • 결과: 기존 AI 도 어느 정도 잘하지만, 새로운 길이가 나오면 실수가 늘어납니다. 새로운 방식은 2~2.7 배 더 정확했습니다.
  2. 원 두 개가 만나는 모양 (S1 ∨ S1):

    • 규칙이 까다롭습니다 (A+B ≠ B+A). 순서가 중요해요.
    • 결과: 기존 AI 는 완전히 망가졌습니다. "왼쪽 원"을 가야 할 때 "오른쪽 원"으로 가는 등 방향을 완전히 잃었습니다. 반면 새로운 방식은 5.5~10 배 더 정확했습니다.
    • 비유: 기존 AI 는 "왼쪽, 오른쪽"을 섞어서 기억하다가 길을 잃은 관광객이고, 새로운 방식은 나침반을 들고 있는 가이드입니다.
  3. 클라인 병 (Klein Bottle):

    • 가장 복잡한 규칙이 있습니다. "B 를 지나면 A 의 방향이 뒤집힌다"는 특수한 법칙이 있습니다.
    • 결과: 기존 AI 는 이 법칙을 전혀 이해하지 못했습니다. 하지만 새로운 방식은 이 **복잡한 법칙 (2-셀)**을 학습시켜서, 방향이 뒤집히는 순간을 정확히 처리했습니다.
    • 의미: 단순히 규칙을 외우는 게 아니라, 규칙이 변하는 순간을 수학적으로 증명하고 적용한 것입니다.

4. 왜 기존 AI 는 안 될까? (Attention 의 한계)

논문은 **"소프트맥스 어텐션 (Attention)"**이라는 현재 AI 의 핵심 기술이 수학적으로 '조합성 (Compositionality)'을 가질 수 없다고 증명합니다.

  • 비유: 어텐션은 "모든 사람이 서로 눈을 마주치며 대화하는 회의"입니다.
    • 회의가 길어질수록 (문장이 길어질수록) 서로의 말을 섞어 듣느라, 누가 먼저 말했는지, 어떤 순서로 진행되었는지를 잊어버립니다.
    • 반면, 새로운 방식은 **"각자 역할이 정해진 팀"**입니다. A 팀은 A 일만, B 팀은 B 일만 하고, 마지막에 팀장만 규칙대로 합칩니다. 그래서 길이가 아무리 길어져도 실수가 없습니다.

5. 결론: "배우는 것"이 아니라 "설계하는 것"

이 논문의 가장 큰 메시지는 다음과 같습니다.

"AI 에게 '더 많이' 학습시키는 것만으로는 문제를 해결할 수 없습니다. AI 의 뼈대 (구조) 자체가 규칙을 따르도록 설계되어야 합니다."

  • 기존 방식: "이거 잘해봐, 더 많이 공부해." (학습에 의존)
  • 새로운 방식: "이게 규칙이야. 이 규칙을 따르는 기계로 만들어." (설계에 의존)

이 방법은 로봇이 장애물을 피하는 법, 복잡한 문장을 해석하는 법, 혹은 분자 구조를 설계하는 법 등 규칙이 있는 모든 작업에 적용할 수 있습니다. 마치 **"수학적으로 검증된 설계도"**를 통해 AI 를 만드는 첫걸음이라고 할 수 있습니다.

한 줄 요약:

"AI 가 새로운 상황을 잘 처리하지 못하는 이유는 머리가 나빠서가 아니라, 모든 것을 한 번에 섞어보는 '요리사' 방식이기 때문입니다. 이제부터는 규칙대로 블록을 쌓는 '건축가' 방식으로 AI 를 설계해야 합니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →