The minimal width of universal $p$-adic ReLU neural networks

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"p-진수 (p-adic numbers)"**라는 아주 특이한 수학적 세계를 사용하는 **인공지능 (신경망)**에 대해 연구한 것입니다.

일반적인 인공지능은 우리가 아는 실수 (Real numbers) 를 사용하지만, 이 논문은 'p-진수'라는 수를 사용했을 때, 얼마나 좁은 신경망 (작은 두뇌) 으로도 복잡한 문제를 완벽하게 풀 수 있는지를 증명했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: 왜 'p-진수'인가? (새로운 도시의 지도)

일반적인 인공지능은 사진을 보고 "고양이냐, 아니냐"를 판단할 때, 실수 (0.1, 3.14 등) 를 사용합니다. 마치 우리가 평평한 지도를 보고 길을 찾는 것과 비슷하죠.

하지만 이 연구자들은 **"왜 하필 실수만 쓸까? p-진수라는 완전히 다른 지도를 써보면 어떨까?"**라고 생각했습니다.

p-진수 세계의 특징: 이 세계는 우리가 아는 공간과 다릅니다. 모든 것이 완전히 끊어져 있습니다 (Totally disconnected). 마치 거대한 도시가 아니라, 수없이 많은 작은 섬들이 떠 있는 바다 같습니다.
장점: 이 '끊어진' 구조 덕분에, 복잡한 문제를 해결할 때 생기는 여러 가지 장애물 (위상수학적 문제) 이 사라집니다. 마치 미로가 아니라, 모든 길이 바로 연결된 공간처럼 느껴지는 것이죠.

2. 핵심 질문: "얼마나 좁은 두뇌가 필요할까?"

신경망의 **'너비 (Width)'**는 한 번에 처리할 수 있는 정보의 양, 즉 두뇌의 크기라고 생각하면 됩니다.

입력 (Input): 고양이의 특징 (눈, 귀, 수염 등) 이 $d_x$ 개라면, 입력 크기는 $d_x$ 입니다.
출력 (Output): "고양이" 또는 "고양이가 아님"을 $d_y$ 개의 값으로 표현한다면, 출력 크기는 $d_y$ 입니다.

연구자들은 **"이 p-진수 세계에서, 입력과 출력을 완벽하게 처리하려면 최소한의 두뇌 크기 (너비) 가 얼마나 되어야 할까?"**를 찾아냈습니다.

3. 발견한 정답: "입력 + 1" 혹은 "출력" 중 큰 것

이 논문이 찾아낸 결론은 매우 간단하고 명확합니다.

최소한의 두뇌 크기 = (입력 크기 + 1) 과 (출력 크기) 중 더 큰 값

예를 들어, 입력이 3 개고 출력이 2 개라면, 최소 4 개의 두뇌가 필요합니다. (3+1=4 이니까요).

왜 '입력 + 1'이 필요한 걸까요?

실수 세계 (일반 AI): 실수 세계에서는 길을 찾을 때 '벽'이나 '구멍' 같은 장애물이 있어서, 아주 좁은 두뇌로는 복잡한 미로를 통과하기 어렵습니다. 그래서 더 넓은 두뇌가 필요할 때가 많습니다.
p-진수 세계 (이 연구): 이 세계는 모든 것이 끊어져 있어서, 장애물이 없습니다. 마치 레고 블록처럼 작은 조각들을 쌓아 올리면 되죠. 그래서 '입력 크기 + 1'만 있어도 모든 길을 다 뚫고 갈 수 있습니다.

4. 어떻게 증명했을까? (두 단계의 마법)

연구자들은 이 결론을 증명하기 위해 두 가지 마법 같은 단계를 거쳤습니다.

1 단계: 암호화 (Encoding) - "모든 것을 하나의 숫자로 묶기"

입력된 여러 개의 정보 (예: 눈, 귀, 수염) 를 p-진수 세계에서는 하나의 숫자로 완벽하게 구별할 수 있습니다.

비유: 수천 개의 서로 다른 우편물을 각각 다른 색깔의 봉투에 넣는 대신, 하나의 봉투에 모든 우편물의 주소를 압축해서 적어넣는 것과 같습니다.
이 논문은 "너비가 $d_x + 1$ 만 있으면, 입력 정보를 하나하나 구별할 수 있는 '압축기'를 만들 수 있다"고 증명했습니다.

2 단계: 복호화 (Decoding) - "하나의 숫자를 다시 여러 개로 풀어내기"

압축된 숫자를 다시 원래의 여러 정보 (출력) 로 되돌려야 합니다.

비유: 압축된 봉투를 다시 열어, 필요한 우편물만 골라내는 작업입니다.
p-진수 세계에서는 이 '압축된 숫자'를 이용해 **출력되는 모든 가능한 경우의 수를 골고루 골라낼 수 있는 '해독기'**를 만들 수 있습니다. 이 해독기는 출력 크기 ( $d_y$ ) 만큼의 두뇌만 있으면 됩니다.

5. 결론: 왜 이 연구가 중요할까?

이 연구는 **"p-진수라는 새로운 수학을 쓰면, 인공지능의 두뇌를 훨씬 더 작게 만들 수 있다"**는 가능성을 보여줍니다.

실제 적용: 만약 우리가 고양이 사진 분류 같은 문제를 p-진수 방식으로 풀면, 기존보다 훨씬 적은 계산 자원 (작은 두뇌) 으로도 100% 정확한 결과를 얻을 수 있을지도 모릅니다.
핵심 메시지: "세상은 실수만 있는 게 아니다. p-진수라는 새로운 세계를 열면, 복잡한 문제도 훨씬 간단하게 (좁은 두뇌로) 해결할 수 있다."

한 줄 요약:

"p-진수라는 '끊어진' 세계에서는, 인공지능이 복잡한 일을 하기 위해 필요한 두뇌의 크기가 **(입력 + 1)**만 있으면 충분하다는 놀라운 사실을 발견했습니다!"

Each language version is independently generated for its own context, not a direct translation.

이 논문은 p-진수 (p-adic numbers) $\mathbb{Q}_p$ 를 기반으로 한 신경망, 특히 p-진 ReLU(pReLU) 활성화 함수를 사용하는 신경망의 **보편적 근사 성질 (Universal Approximation Property)**과 이를 달성하기 위한 **최소 폭 (Minimal Width)**에 대한 수학적 분석을 다룹니다.

실수 ( $\mathbb{R}$ ) 기반의 신경망 이론이 p-진수 공간으로 어떻게 확장되는지, 그리고 p-진 공간의 위상적 특성 (완전히 불연속적임) 이 신경망의 구조적 요구사항에 어떤 영향을 미치는지를 규명합니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 연구 문제 및 배경 (Problem Statement)

배경: 기존 신경망 이론은 주로 실수 ( $\mathbb{R}$ ) 또는 복소수 ( $\mathbb{C}$ ) 위에서 정의되며, ReLU 활성화 함수를 가진 심층 신경망의 보편적 근사 능력과 최소 폭에 대한 연구가 활발합니다.
문제 제기: 분류 문제와 같이 이산적인 값을 다루는 경우, p-진수 체 $\mathbb{Q}_p$ 가 실수보다 더 적합한 수학적 구조를 가질 수 있습니다. 그러나 p-진수 공간에서의 신경망 근사 이론, 특히 **최소 폭 (Minimal Width)**에 대한 연구는 부족했습니다.
목표:
- $\mathbb{Z}_p^d$ (p-진 정수 공간) 상의 연속 함수를 $\mathbb{Q}_p^k$ 값으로 근사하는 pReLU 신경망의 최소 폭을 결정합니다.
- $L_q$ 노름 ( $1 \le q \le \infty$ ) 및 $C^1$ 노름 (p-진 공간에서의 미분 가능성과 관련된 노름) 에 대한 보편적 근사 성질을 규명합니다.
- 활성화 함수는 자연스러운 p-진 ReLU 아날로그인 pReLU를 사용합니다.

2. 주요 정의 및 설정 (Definitions & Setup)

pReLU 활성화 함수:
$\text{pReLU}(x) = \begin{cases} x & \text{if } x \in \mathbb{Z}_p \\ 0 & \text{otherwise} \end{cases}$
이는 실수 ReLU( $\max(0, x)$ ) 의 p-진 아날로그로, p-진 정수 집합 $\mathbb{Z}_p$ 밖에서는 0 이 됩니다.
신경망 구조: 입력 차원 $d_x$ , 출력 차원 $d_y$ , 가중치와 편향은 $\mathbb{Q}_p$ 값을 가지며, 활성화 함수는 pReLU 를 사용합니다.
근사 대상: $\mathbb{Z}_p^{d_x}$ 에서 정의된 연속 함수 $f: \mathbb{Z}_p^{d_x} \to \mathbb{Q}_p^{d_y}$ .
중요한 제약: 가중치가 $\mathbb{Z}_p$ 로만 제한되면 pReLU 는 항등 함수가 되어 선형 변환만 수행하므로 보편적 근사가 불가능합니다. 따라서 가중치는 $\mathbb{Q}_p$ 여야 합니다.

3. 주요 결과 (Key Results)

논문은 다음과 같은 정리를 증명합니다.

주요 정리 (Theorem 1.2):
모든 $q \in [1, \infty]$ 에 대해, 폭 (width) $w$ 를 가진 pReLU 신경망이 $\mathbb{Z}_p^{d_x} \to \mathbb{Q}_p^{d_y}$ 의 연속 함수에 대해 $L_q$ 노름에서 보편적 근사 성질을 가질 필요충분조건은 다음과 같습니다.
$w \ge \max(d_x + 1, d_y)$

실수 경우와의 차이: 실수 공간에서는 $C^1$ 노름 (미분 가능한 함수 근사) 과 $L_q$ 노름 사이의 하한과 상한에 차이가 있을 수 있지만, p-진 공간에서는 두 경우 모두 동일한 최소 폭을 가집니다.
이유: $\mathbb{Q}_p$ 의 위상은 **완전히 불연속적 (totally disconnected)**입니다. 이로 인해 실수 공간에서 발생하는 위상적 장애물 (topological obstructions) 이 존재하지 않아, 국소 상수 함수 (locally constant functions) 를 통해 모든 연속 함수를 근사할 수 있게 됩니다.

4. 방법론 및 증명 전략 (Methodology)

증명은 **하한 (Lower Bound)**과 **상한 (Upper Bound)**으로 나뉩니다.

A. 하한 증명 (Lower Bound: $w \ge \max(d_x + 1, d_y)$ )

출력 차원 제약 ( $w \ge d_y$ ): 신경망의 폭이 $d_y$ 보다 작으면, 신경망의 출력은 $\mathbb{Q}_p^{d_y}$ 의 고유한 아핀 부분공간에 머무르게 됩니다. 이는 전체 공간을 근사할 수 없음을 의미합니다.
입력 차원 제약 ( $w \ge d_x + 1$ ):
- Theorem 2.13 (핵심 보조정리): 폭 $n$ 인 pReLU 신경망 $f$ 에 대해, $f|_{\mathbb{Z}_p^n}$ 가 아핀 함수가 아니면, 반지름 $1/p$ 인 어떤 공 (ball) $B$ 에서 $f$ 는 특정 방향에서 상수 (constant in some direction) 가 됩니다.
- 모순 유도: 만약 $w \le d_x$ 라면, $\mathbb{Z}_p^{d_x} \to \mathbb{Z}_p$ 인 단사 연속 함수 (예: $x \mapsto x^2$ ) 를 근사할 수 없습니다. 단사 함수는 국소적으로 상수일 수 없기 때문입니다. 이는 p-진 공간의 위상적 성질 (Brouwer 정리 등) 을 활용하여 증명됩니다.

B. 상한 증명 (Upper Bound: $w \le \max(d_x + 1, d_y)$ )

모든 연속 함수는 **국소 상수 함수 (locally constant function)**로 임의의 오차까지 근사할 수 있으므로, 국소 상수 함수를 정확히 계산할 수 있는 신경망 구성을 보여줍니다.

인코딩 (Encoding):
- $\mathbb{Z}_p^{d_x}$ 의 서로 다른 공 (cosets of $p^m \mathbb{Z}_p^{d_x}$ ) 을 $\mathbb{Z}_p$ 의 서로 다른 값으로 매핑하는 함수를 구성합니다.
- Theorem 3.4: 폭 $d_x + 1$ 인 pReLU 네트워크로 이러한 인코딩 함수를 구현할 수 있습니다. (Lemma 3.12)
디코딩 (Decoding):
- $\mathbb{Z}_p$ 의 값을 $\mathbb{Z}_p^{d_y}$ 의 공 (cosets) 으로 분배하여 매핑하는 '저글링 함수 (juggling function)'를 구성합니다.
- Lemma 3.16 & 3.19: 폭 $d_y$ 인 pReLU 네트워크로 $\mathbb{Z}_p$ 에서 $\mathbb{Z}_p^{d_y}$ 로의 디코딩 함수를 구현할 수 있습니다.
결합: 인코딩 (폭 $d_x+1$ ) $\to$ 점별 매핑 $\to$ 디코딩 (폭 $d_y$ ) 구조를 통해 전체 함수를 구현하며, 최종 폭은 $\max(d_x+1, d_y)$ 가 됩니다.

5. 핵심 기여 및 의의 (Contributions & Significance)

p-진 신경망 이론의 정립: ReLU 활성화 함수를 사용하는 p-진 신경망의 보편적 근사 성질에 대한 최초의 엄밀한 수학적 정리를 제시했습니다.
최소 폭의 결정: 실수 신경망과 달리, p-진 공간에서는 $C^1$ 노름과 $L_q$ 노름 간의 격차가 없으며, 최소 폭이 $\max(d_x+1, d_y)$ 로 명확하게 결정됨을 보였습니다.
위상적 통찰: p-진 공간의 완전히 불연속적 성질이 신경망의 근사 능력을 어떻게 단순화시키는지 (위상적 장애물 부재) 를 보여주었습니다. 이는 p-진 분석과 머신러닝 이론의 교차점을 개척합니다.
구체적 구성 알고리즘: 단순히 존재성을 증명하는 것을 넘어, 국소 상수 함수를 계산하는 구체적인 pReLU 네트워크의 구성 방법 (인코딩/디코딩 전략) 을 제시했습니다.

6. 결론

이 논문은 p-진수 체 $\mathbb{Q}_p$ 를 기반으로 한 신경망이 분류 및 근사 문제에서 실수 기반 신경망과 동등하거나 더 유리한 구조적 특성을 가질 수 있음을 수학적으로 입증했습니다. 특히, ReLU 와 유사한 간단한 활성화 함수만으로도 입력 차원보다 1 더 큰 폭 ( $d_x+1$ ) 만 있으면 임의의 연속 함수를 근사할 수 있음을 보임으로써, p-진 신경망의 이론적 기반을 확고히 했습니다.

The minimal width of universal ppp-adic ReLU neural networks

1. 배경: 왜 'p-진수'인가? (새로운 도시의 지도)

2. 핵심 질문: "얼마나 좁은 두뇌가 필요할까?"

3. 발견한 정답: "입력 + 1" 혹은 "출력" 중 큰 것

4. 어떻게 증명했을까? (두 단계의 마법)

1 단계: 암호화 (Encoding) - "모든 것을 하나의 숫자로 묶기"

2 단계: 복호화 (Decoding) - "하나의 숫자를 다시 여러 개로 풀어내기"

5. 결론: 왜 이 연구가 중요할까?

1. 연구 문제 및 배경 (Problem Statement)

2. 주요 정의 및 설정 (Definitions & Setup)

3. 주요 결과 (Key Results)

4. 방법론 및 증명 전략 (Methodology)

A. 하한 증명 (Lower Bound: w≥max⁡(dx+1,dy)w \ge \max(d_x + 1, d_y)w≥max(dx​+1,dy​))

B. 상한 증명 (Upper Bound: w≤max⁡(dx+1,dy)w \le \max(d_x + 1, d_y)w≤max(dx​+1,dy​))

5. 핵심 기여 및 의의 (Contributions & Significance)

6. 결론

유사한 논문

Entropy After for reasoning model early exiting

Alternatives to the Laplacian for Scalable Spectral Clustering with Group Fairness Constraints

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

The minimal width of universal $p$ -adic ReLU neural networks

A. 하한 증명 (Lower Bound: $w \ge \max(d_x + 1, d_y)$ )

B. 상한 증명 (Upper Bound: $w \le \max(d_x + 1, d_y)$ )