핵심 아이디어: 분류(Sorting)에 대한 새로운 "사고" 방식

당신이 뒤섞인 거대한 장난감 더미를 상자에 나누어 담으려고 한다고 상상해 보세요. 전통적인 컴퓨터(우리가 오늘날 사용하는 것들)는 "빨간색이면 A 상자에 넣어라. 파란색이면 B 상자에 넣어라"와 같은 엄격한 지침 목록을 따르며 이를 수행합니다. 이들은 모든 것을 기호와 규칙으로 취급합니다.

**유리손 머신(Urysohn Machine, UM)**은 다른 방식을 제안합니다. 단순히 규칙의 목록을 따르는 대신, 이 모델은 문제를 기하학과 거리처럼 다룹니다. "이 장난감들은 서로 얼마나 떨어져 있는가? 빨간색 장난감과 파란색 장난감 사이에 선을 긋기 위해 얼마나 많은 '공간'이 필요한가?"라고 질문합니다.

이 논문은 전통적인 컴퓨터가 분류를 수행할 수는 있지만, 그 작업의 진정한 "비용"을 숨기고 있다고 주장합니다. 유리손 머신은 그 비용을 가시화합니다. 이 모델은 경계의 크기(그려야 하는 선의 길이)와 그 선을 저장하는 데 필요한 메모리의 양을 측정합니다.

비유를 통한 핵심 개념 설명

1. 메트릭 라이브러리(Metric Library): "지도 뭉치"

컴퓨터의 메모리를 파일이 가득 찬 하드 드라이브가 아니라, 투명한 지도들이 쌓여 있는 뭉치라고 생각해보세요.

맨 아래 지도: 큰 그림을 보여줍니다 (예: "동물 vs 식물").
중간 지도: 특정 영역을 확대해서 보여줍니다 (예: "개 vs 고양이").
맨 위 지도: 훨씬 더 세밀하게 확대하여 보여줍니다 (예: "푸들 vs 비글").

이 시스템에서 당신은 오직 맨 위의 지도만을 볼 수 있습니다. 더 작은 세부 사항을 보고 싶다면, 더 상세한 새 지도를 위에 "푸시(push)"하여 올립니다. 작업을 마치면 그것을 "팝(pop)" 하여 빼내고, 이전의 지도로 돌아갑니다. 이것을 **스택(Stack)**이라고 부릅니다. 논문은 이것이 중첩된 카테고리를 처리하는 가장 효율적인 방법이라고 주장합니다. 왜냐하면 매번 전체 지도를 다시 그릴 필요 없이, 그 위에 작은 층을 추가하기만 하면 되어 공간을 절약할 수 있기 때문입니다.

2. 유리손 트리플(Urysohn Triple): "국소적 분리자"

스택에 새로운 지도를 추가할 때마다, 당신은 하나의 유리손 트리플을 추가하게 됩니다. 이것을 특정 동네에 세워진 완벽한 울타리 하나라고 생각해보세요.

서포트(Support): 울타리가 존재하는 구역(동네).
파티션(Partition): 분리되는 두 집단 (예: 왼쪽의 "개", 오른쪽의 "고양이").
클래시파이어(Classifier): 실제 울타리 그 자체.

이 머신은 이러한 작고 국소적인 울타리들을 쌓아 올려 복잡한 분류를 구축합니다.

3. 분리의 "사다리" (The "Ladder" of Separation)

두 집단이 서로 엉켜 있을 때, 머신은 어떻게 그 사이에 울타리를 만들까요? 바로 사다리를 사용합니다.
두 개의 절벽(그룹 A와 그룹 B)이 매우 가까이 있다고 상상해 보세요. 아직은 그 간격을 뛰어넘을 수 없습니다.

1단계: 절벽 사이 중간 지점에 발판을 하나 만듭니다.
2단계: 첫 번째 발판과 절벽 사이의 중간 지점에 또 다른 발판을 만듭니다.
3단계: 간격이 아주 작아져서 쉽게 건널 수 있을 때까지 점점 더 작은 발판들을 계속 만들어 나갑니다.

논문에서는 이를 **다이아딕 사다리(Dyadic Ladder)**라고 부릅니다. 이는 경계가 매끄럽고 연속적이 될 때까지 분리를 정교하게 다듬어가는 단계적인 과정입니다. 머신은 간격이 너무 넓은 곳에만 디딤돌을 추가하며 이 사다리를 동적으로 구축합니다.

4. 분류의 "비용" 측정하기

논문은 분류 작업이 얼마나 어려운지를 측정하는 두 가지 방법을 소개합니다.

결정 경계 폭 ( $W_\partial$ ): 이것은 당신이 세워야 하는 울타리의 길이입니다. 만약 원형을 분류한다면, 울타리는 원의 둘레가 됩니다. 만약 나선형 모양을 분류한다면, 울타리는 매우 길고 구불구불한 선이 됩니다. 울타리가 길수록 작업은 더 어려워집니다.
유리손 폭 ( $W_U$ ): 이것은 머신이 라이브러리에 저장하고 있는 전체 울타리 재료의 양입니다. 만약 다양한 작업에 동일한 울타리를 재사용한다면, "유리손 폭"은 낮게 유지됩니다. 만약 매 작업마다 새롭고 독특한 울타리를 만들어야 한다면, 폭은 엄청나게 커질 것입니다.

위대한 발견: 논문은 수학적으로 속임수를 쓸 수 없음을 증명합니다. 만약 세워야 할 울타리가 매우 길다면 (높은 $W_\partial$ ), 그것을 구성하기 위해 반드시 많은 기초적인 빌딩 블록(트리플)을 사용해야 합니다. 길고 구불구불한 울타리를 아주 작은 상자 안에 압축할 수는 없습니다.

5. "아모티즈드(Amortized)" 추론: 지름길

머신이 울타리를 구축하고 라이브러리에 저장하고 나면, 매번 울타리를 새로 만들 필요가 없습니다.

이전: 새로운 장난감을 분류하기 위해, 컴퓨터는 물건이 어디에 속하는지 찾으려고 온 방 안을 헤매야 했을지도 모릅니다.
이후: 머신은 공간을 "수축(contract)"시켰습니다. 유사한 항목들(모든 개들) 사이의 거리는 좁히고, 서로 다른 항목들(개 vs 고양이) 사이의 거리는 늘렸습니다.

이제 적절한 상자를 찾는 것은 지름길을 가는 것과 같습니다. 머신은 이미 분류된 영역들을 통과하는 "측지선(geodesic, 최단 경로)"을 따라 이동합니다. 이것을 **아모티즈드 추론(Amortized Inference)**이라고 합니다. 울타리를 만드는 무거운 비용은 처음에 한 번만 지불하면 되며, 그 이후의 모든 단계는 저렴하고 빠르게 진행됩니다.

6. 안정성과 환각 (Stability and Hallucination)

논문은 이 머신이 어떻게 실수를 피하는지도 설명합니다.

안정성(Stability): 일단 울타리가 구축되어 스택에 "고정"되면, 그 위에 새로운 층을 추가한다고 해서 실수로 지워지지 않습니다. 오래된 규칙들은 안전하게 유지됩니다.
환각(Hallucination): 만약 머신이 이전에 본 적이 없는 것(자신의 "교정된" 사다리 범위를 벗어난 것)을 분류하도록 요청받는다면, 잘못된 추측을 할 수 있습니다. 논문은 이를 "티체 확장 실패(Tietze extension failure)"라고 부릅니다. 이는 지도가 없는 곳에 울타리를 그리려고 하는 것과 같습니다. 당신은 의도치 않게 연결되지 말아야 할 두 대상을 연결할 수도 있습니다. 머신은 언제 일반화하는 것이 안전하고, 언제 그것이 너무 위험한지를 알 수 있도록 설계되었습니다.

논문의 주장 요약

새로운 모델: 단순한 기호가 아닌 기하학과 위상수학(모양과 공간)을 사용하는 새로운 컴퓨터 모델(유리손 머신)을 정의합니다.
구성적 증명: 중첩된 영역의 "사다리"를 사용하여 이러한 분리자들을 단계별로 구축할 수 있음을 증명합니다.
복잡도 측정: 규칙 세트를 저장하는 데 필요한 전체 기하학적 노력을 측정하기 위해 "유리손 폭"을 도입합니다.
하한선(Lower Bound): 복잡한 경계(긴 울타리)는 반드시 더 많은 자원을 필요로 한다는 것, 즉 임의로 압축할 수 없음을 증명합니다.
효율성: 분리자가 구축되면, 공간을 "수축"함으로써 미래의 결정을 훨씬 더 빠르게 만들기 위해 이를 재사용할 수 있음을 보여줍니다.
네 가지 보장: 이 시스템은 분리 가능성(항상 집단을 구분할 수 있음), 안정성(오래된 규칙이 깨지지 않음), 유한성(무한한 메모리가 필요하지 않음), 확장성(더 많이 배울수록 더 빨라짐)을 갖추었음을 증명합니다.

요약하자면, 유리손 머신은 학습과 분류를 기하학적 경계를 구축하고 재사용하는 과정으로 취급하는 이론적 프레임워크이며, 공간과 거리라는 관점에서 지능의 "실제 비용"을 이해할 수 있는 방법을 제시합니다.

기술 요약: 유리슨 머신 (The Urysohn Machine)

1. 문제 제기

고전적 계산 모델(튜링 머신, $\lambda$ -계산)은 기호적 상태와 국소적 재작성 규칙을 통해 계산을 설명하며, 기하학, 연속성, 거리에 대해 의도적으로 기질 중립적(substrate-neutral)인 상태를 유지한다. 이러한 모델들은 보편적이지만, 분류 작업에서 두 가지 구별되는 형태의 난이도를 혼재시킨다:

외적 비용 (Extrinsic Cost): 프로그램을 통해 분류기를 구현하는 데 필요한 계산 자원.
내적 비용 (Intrinsic Cost): 분류기가 해결해야 하는 결정 경계(decision boundary) 자체의 기하학적 복잡성.

메트릭 또는 위상 공간에서 표준 모델들은 기하학적 구조를 간접적으로 인코딩하도록 강제하며, 이 과정에서 분류를 위해 필요한 "경계 질량(frontier mass)"을 은폐한다. 본 논문은 이러한 문제를 해결하기 위해, 분류의 복잡성을 설명하기 위해 메트릭 분리, 경계 구조, 그리고 계산 상태 내의 수축(contraction)을 명시적으로 표현하는 보완적인 모델이 필요하다고 주장한다.

2. 방법론: 유리슨 머신 (UM)

본 논문은 유리슨 삼중항(Urysohn Triple) $(\Sigma, \Pi, f)$ 을 기본 객체로 하는 메트릭-위상적 계산 모델인 **유리슨 머신(Urysohn Machine, UM)**을 소개한다.

핵심 구성 요소

메트릭 라이브러리 (Metric Library): 계산 기질은 메모리, 프로그램, 작업 공간 역할을 하는 구조화된 공간이다. 이는 5-튜플 $(S, d, T, \sigma, K)$ 로 구성된다. 여기서 $S$ 는 인덱스의 가산 이산 공간, $d$ 는 메트릭, $T$ 는 유리슨 삼중항의 유한 집합, $\sigma$ 는 스택 규율, $K$ 는 라이브러리 크기의 상한을 의미한다.
유리슨 삼중항 (Urysohn Triple): 지지 영역(support region) $\Sigma$ , 대상 분할(target partition) $\Pi$ , 그리고 해당 분할을 분리하는 분류기 $f$ 로 구성된 삼중항이다. 이 분류기는 특정 지지 영역에 대한 "완벽한 분리자(perfect separator)"이다.
스택 아키텍처 (Stack Architecture): UM은 LIFO(Last-In-First-Out) 스택을 통해 작동한다. 새로운 분류 컨텍스트가 들어오면 새로운 삼중항을 푸시(push)하고, 컨텍스트가 종료되면 삼중항을 팝(pop)하여 이전의 분류기를 복구한다. 이는 계층적 분류를 모델링하며, 거친(coarse) 결정이 더 미세한 정교화(refinement)를 위한 환경을 형성하게 한다. 과거의 삼중항은 "동결(frozen)"되며 불변(immutable) 상태가 된다.

이론적 토대

이 모델은 **유리슨 보조정리(Urysohn's Lemma)**의 구성적 버전에 기초한다. 고전적 보조정리가 정규 공간(normal space) 내의 서로소인 닫힌 집합들에 대해 연속적인 분리자의 존재를 보장하는 반면, UM은 유한 심플렉스 설정에서의 구성적 실현을 요구한다.

다이아딕 사다리 (Dyadic Ladder): 분리자는 중첩된 다면체 영역의 다이아딕 정교화(dyadic refinement)를 통해 구축된다.
경계 미분법 (Frontier Calculus): 다이아딕 사다리의 각 단계는 "경계(frontier)"(영역 사이의 경계)를 도입한다. 이 경계들은 체인 복합체(chain complex, $\partial^2 = 0$ )에서의 사이클(cycle)로 취급된다. 단계 사이의 공간(shells)은 이러한 경계들의 차이로 정의되는 경계를 가진다.

3. 주요 기여 및 정의

(1) 복잡도 척도: $W_\partial$ 대 $W_U$

본 논문은 두 가지 너비(width) 척도를 구분한다:

결정 경계 너비 ( $W_\partial$ ): 단일 분류기의 경계에 대한 기하학적 측정값(차원 $d-1$ 의 하우스도르프 측도)이다. 이는 특정 분리기의 내재적인 기하학적 난이도를 측정한다.
유리슨 너비 ( $W_U$ ): 유리슨 라이브러리 또는 실현에 표현된 총 경계 질량이다. 이는 모든 삼중항의 $W_\partial$ 합계이다. 이는 저장, 구성 또는 재사용되는 전체 분리 구조를 측정한다.

(2) 아마티즈드 분리 정리 (Amortized Separation Theorem)

본 논문은 정확도 $\epsilon$ 로 너비 $W_\partial$ 인 경계를 근사하는 데 필요한 단순 기초 삼중항(basis triples)의 수가 $W_\partial$ 에 비례하고 $\epsilon$ 에 반비례함을 증명한다. 이는 복잡한 경계가 임의로 압축될 수 없음을 입증하며, 경계의 "비용"은 내재적인 장애물임을 보여준다.

(3) 대비적 분리 연산자 (Contrastive Separation Operator)

샘플링된 메트릭 데이터로부터 $W_\partial$ 를 추정하기 위한 새로운 연산자가 도입된다:

그래프 컷 범함수 (Graph-Cut Functional): 클래스 내 친화도 그래프(within-class affinity graph)에서 유도된 정규화된 비국소 퍼리미터(nonlocal-perimeter) 추정치로, 경계 측도를 일관되게 추정한다.
스펙트럼 인증 (Spectral Certification): 이 연산자의 라플라시안 스펙트럼은 경계 너비를 추정하는 것이 아니라, 클래스 연결 성분의 개수(0 고윳값의 다중도를 통해) 및 전도도(spectral gap을 통해)와 같은 위상적 특성을 인증한다.

(4) 메트릭 수축 및 지오데식 추론 (Metric Contraction and Geodesic Inference)

분리자가 구축되면, UM은 **클래스 인식 수축(class-aware contraction)**을 수행한다:

동일 클래스의 점들 사이의 거리는 수축된다 ( $d' \le \lambda d, \lambda < 1$ ).
서로 다른 클래스 사이의 거리는 유지되거나 확장된다.
지오데식 아마티제이션 (Geodesic Amortization): 추론은 주변 공간을 탐색하는 대신, 클래스 일관성이 있는 영역 내에서 수축된 지오데식을 따라 진행된다. 이는 분리자 구축에 드는 일회성 비용을 향후 쿼리를 위한 재사용 가능한 기하 구조로 전환한다.

4. 결과 및 계산 보증

본 논문은 동적 유리슨 사다리(Dynamic Urysohn Ladder), 즉 증분적 구축 과정(평가-탐지-정교화)을 분석하고 네 가지 계산적 보증을 확립한다:

몫 붕괴 하의 분리 가능성 (Separability under Quotient Collapse): 몫(quotienting/collapsing)을 통해 확정된 영역을 축소하더라도 클래스를 분리하는 능력이 유지된다. 분리 속성은 사다리의 계층 구조를 통해 상속적(hereditary)으로 유지된다.
확정된 경계의 안정성 (Stability of Committed Frontiers): 이 아키텍처는 "흐름(flow)"(활성 정교화)과 "스캐폴드(scaffold)"(동결된 확정 토큰) 사이의 분해를 유지한다. 정교화 업데이트는 이전에 확정된 경계를 교란하지 않으므로, 간섭 없는 구성을 보장한다.
유한 용량 (Bounded Capacity): 균등 수축 하에서, 몫 공간(quotient space)의 피복 수(covering number, 용량 요구량)는 인스턴스 길이에 선형적으로 증가하는 대신 깊이에 따라 로그 단위로 증가한다. 이를 통해 시스템은 제한된 자원으로 임의의 긴 인스턴스를 표현할 수 있다.
확장성 (Scalability): 추론 비용은 주변 궤적 길이( $L$ )가 아닌 몫 거리(quotient distance, 계층 내 토큰 수)에 따라 스케일링된다. 이는 추론의 시간 복잡도를 $O(L)$ 에서 $O(\log L)$ 로 효과적으로 제한한다.

5. 의의 및 주장

본 논문은 유리슨 머신을 고전적 계산 가능성(튜링 머신에 의해 여전히 정의됨)의 대체물이 아니라, 메트릭-위상적 문제를 위한 계산적 기술의 정교화로 위치시킨다.

내포적 vs 외연적 (Intensional vs. Extensional): 튜링 머신이 무엇을 계산할 수 있는지에 대한 외연적 이론을 제공한다면, UM은 메트릭-위상적 구조가 어떻게 표현되고, 아마티즈(amortize)되고, 재사용될 수 있는지에 대한 내포적 설명을 제공한다.
인지적 계산 (Cognitive Computation): 이 모델은 메모리가 단순한 예시의 수동적 저장소가 아니라 재사용 가능한 구별의 능동적 기하학인 "인지적 계산"을 위한 이론적 틀을 제공한다.
지속적 학습 (Continual Learning): UM은 지속적 학습을 제어된 경계 정교화로 재정의한다. 새로운 과업은 라이브러리에 새로운 분리자로 삽입되며, 일단 확정되면 동결되어 재사용 가능하다. 이는 가소성(새로운 학습)과 안정성(동결된 경계)을 분리함으로써 파괴적 망각 문제를 해결한다.
환각 vs 일반화 (Hallucination vs. Generalization): 본 논문은 환각을 도메인 교정 실패(domain-calibration failure)로 정의한다. 즉, 티체 확장(Tietze extension/일반화)이 검정된 유리슨 사다리의 유효 도메인을 벗어나 적용될 때(즉, 베이신(basin)을 가로질러 붕괴할 때) 발생한다. 일반화는 확정된 경계를 가로지르지 않고 베이신 내부에서 확장될 때만 안전하다.
AGI에 대한 시사점: 저자들은 범용 지능이 튜링 한계를 넘어서는 것이 아니라, 계산 가능한 구조에 대한 더 풍부한 내부 조직을 갖추는 데서 올 수 있다고 제안한다. 즉, 추상을 위한 안정적인 분리자, 일반화를 위한 경계 보존적 확장, 그리고 아마티즈된 추론을 위한 재사용 가능한 메트릭 수축이 핵심이다.

결론적으로, UM은 고전적 계산 가능성을 보존하면서도 순수 기호적 기술에 의해 숨겨진 기하학적 구조를 드러냄으로써, 분류 복잡도와 아마티즈드 추론에 대한 메트릭-위상적 설명을 제공한다.

The Urysohn Machine: A Metric-Topological Model of Computation