Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 비유: "도로망"과 "한 방향 도로"

기존의 인공지능 (FNN) 은 **한 방향 도로 (일방통행)**만 있는 도시라고 상상해 보세요.

특징: 차는 시작점 (입력) 에서 출발해서 중간 지점 (은닉층) 을 거쳐 목적지 (출력) 로만 이동합니다.
단점: 목적지에서 다시 시작점으로 되돌아오거나, 옆길로 빠져서 다시 합류하는 것은 허용되지 않습니다. 이 구조를 학습시키기 위해 '역전파 (Backpropagation)'라는 복잡한 지도가 필요합니다.

이제 이 논문이 제안하는 **PCG(예측 코딩 그래프)**는 자유로운 도로망을 가진 도시입니다.

특징: 차는 앞으로만 가는 것뿐만 아니라, 뒤로 가거나 (되돌아오기), 옆으로 건너뛰거나 (스킵 연결), 심지어 자기 자신에게 말을 걸기도 할 수 있습니다.
핵심 메시지: 이 논문은 "이 자유로운 도로망 (PCG) 은 사실, 한 방향 도로 (FNN) 를 포함하는 더 큰 집합이다"라고 증명했습니다. 즉, FNN 은 PCG 의 아주 특별한 경우일 뿐입니다.

🧩 2. 두 가지 중요한 발견 (논문의 핵심)

저자는 이 결론을 내리기 위해 두 가지 단서를 연결했습니다.

① 첫 번째 단서: "시험 때는 똑같다"

상황: PCN(예측 코딩 네트워크) 은 학습할 때는 복잡한 추론 과정을 거치지만, 실제 시험 (추론/사용) 을 치를 때는 기존의 FNN 과 완전히 똑같은 결과를 냅니다.
비유: PCN 이라는 학생은 시험 공부할 때는 여러 가지 방법을 시도해 보지만, 막상 시험지 (입력 데이터) 를 받고 답을 적을 때는 FNN 이라는 학생이 쓰는 정석적인 답안지와 똑같이 적습니다.
의미: FNN 이 어떤 복잡한 함수도 근사할 수 있다는 '보편적 근사 정리'가 PCN 에도 그대로 적용된다는 것을 수학적으로 확실히 증명하게 되었습니다.

② 두 번째 단서: "마스크를 쓴 PCG"

상황: PCG 는 모든 노드가 서로 연결될 수 있는 거대한 네트워크입니다. 하지만 여기서 불필요한 연결 (도로) 을 막아주면 (마스크 처리) 어떻게 될까요?
비유: 거대한 자유도로망 (PCG) 에서 '한 방향 도로'만 남게 차선을 그어두면, 그것은 자연스럽게 FNN 과 똑같은 구조가 됩니다.
의미: PCG 는 FNN 을 포함하는 **초집합 (Superset)**입니다. FNN 은 PCG 의 '하위 호환' 버전인 셈이죠.

🚀 3. 왜 이것이 중요한가요? (장점과 미래)

이 논문의 결론은 **"우리가 더 자유로운 구조를 쓸 수 있다"**는 것입니다.

새로운 구조의 가능성:
- 기존에는 '되돌아오는 연결 (Backward connection)'이나 '옆으로 건너뛰는 연결 (Lateral connection)'을 가진 신경망은 학습시키기 매우 어려웠습니다.
- 하지만 PCG 는 이런 복잡한 구조도 자연스럽게 학습할 수 있습니다. 마치 **ResNet(잔차 네트워크)**처럼 '스킵 연결'이 중요한 이유를 PCG 의 전체 연결 행렬 안에서 자연스럽게 설명할 수 있게 된 것입니다.
생물학적 모방:
- 인간의 뇌는 한 방향으로만 신호를 보내지 않습니다. 뇌는 예측을 하고, 오류를 수정하며, 다양한 방향으로 신호를 주고받습니다. PCG 는 이런 뇌의 구조를 더 잘 모방할 수 있는 틀을 제공합니다.
약간의 단점 (비용):
- 자유도가 높다는 건 계산량이 많다는 뜻이기도 합니다. FNN 은 한 번에 빠르게 계산하지만, PCG 는 여러 번의 반복 계산 (추론 단계) 이 필요할 수 있어 속도가 느릴 수 있습니다. 하지만 이 느린 속도를 상쇄할 만큼 더 똑똑한 학습 능력을 가질 수도 있다는 기대가 있습니다.

💡 요약

이 논문은 **"기존의 인공지능 (FNN) 은 사실 더 거대한 인공지능 (PCG) 의 아주 단순한 한 형태일 뿐이다"**라고 선포합니다.

기존: "한 방향 도로 (FNN) 만 다룰 수 있다."
이제: "한 방향 도로도 포함하되, 되돌아오거나 옆으로 가는 모든 도로 (PCG) 를 다룰 수 있다."

이는 인공지능 연구자들에게 **네트워크의 구조 (Topology)**를 자유롭게 설계할 수 있는 새로운 문을 열어주며, 뇌의 작동 원리를 더 잘 이해하고 모방하는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 예측 코딩 (Predictive Coding, PC) 은 신경과학에서 영감을 받은 확률적 잠재 변수 모델로, 역전파 (Backpropagation, BP) 에 비해 생물학적 타당성이 높고 병렬 처리가 가능하며 생성 모델링에 유리하다는 장점이 있어 최근 머신러닝 분야에서 주목받고 있습니다.
한계: 기존 연구들은 주로 계층적 구조를 가진 예측 코딩 네트워크 (PCNs) 에 집중했습니다. 또한, PCNs 가 테스트 (추론) 단계에서 전통적인 FNN 과 동일한 결과를 낸다는 점은 알려져 있었으나, 이를 엄밀하게 증명하거나 PCNs 가 FNN 의 보편적 근사 정리 (Universal Approximation Theorem, UAT) 를 만족한다는 것을 공식적으로 입증한 연구는 부족했습니다.
확장성: 예측 코딩 그래프 (PCGs) 는 임의의 위상 (루프 포함, 비계층적 구조 등) 을 가진 네트워크를 허용하지만, PCGs 와 PCNs, FNN 간의 수학적 관계 (특히 비용 함수와 동역학 측면) 가 명확히 정의되지 않았습니다.
핵심 질문: PCGs 는 FNN 을 포함하는 더 일반적인 구조인가? 그리고 PCNs 는 테스트 시 FNN 과 수학적으로 동등한가?

2. 방법론 (Methodology)

저자는 두 가지 핵심 통찰을 바탕으로 수학적 증명을 수행했습니다.

2.1. 정의 및 설정

FNN 정의: 표준적인 활성화 규칙 $a_i^\ell = f(\sum w_{ij}^{\ell-1} a_j^{\ell-1})$ 을 가진 다층 퍼셉트론.
PCN 정의: 에너지 함수 $E_N = \sum (\epsilon_i^\ell)^2$ 를 최소화하는 방식으로 정의되며, 여기서 $\epsilon_i^\ell = a_i^\ell - \mu_i^\ell$ (예측 오차) 입니다. 학습과 추론 시 활동 규칙 (activity rule) 을 통해 에너지를 최소화합니다.
PCG 정의: 노드와 가중치가 임의의 그래프 구조로 연결된 일반화된 예측 코딩 모델. 에너지 함수 $E_G$ 를 최소화합니다.

2.2. 증명 전략

테스트 단계에서의 PCN 과 FNN 의 동등성 증명:
- 테스트 시에는 학습 규칙이 적용되지 않고 활동 규칙만 적용됩니다.
- PCN 의 에너지 최소화 조건 ( $\frac{\partial E_N}{\partial a_i^\ell} = 0$ ) 을 역순으로 유도 (Backward Induction) 하여, 최종적으로 FNN 의 활성화 함수와 동일한 형태 ( $a_i^\ell = f(\sum w a)$ ) 로 수렴함을 보였습니다.
- 이는 기존 문헌의 '수렴' 주장보다 더 강력한 '동등성 (Equivalence)'을 주장합니다.
PCN 이 PCG 의 부분집합임을 증명:
- PCG 의 가중치 행렬을 블록 행렬 (Block Matrix) 형태로 분할하고, 특정 계층 구조 (계층적 연결만 허용하고 다른 연결은 0 으로 설정) 를 가진 가중치 행렬을 선택합니다.
- 이 특정 가중치 설정 하에서 PCG 의 에너지 함수 $E_G$ 가 PCN 의 에너지 함수 $E_N$ 과 상수 차이 ( $C$ ) 만 남고 동일해짐을 증명했습니다.
- 또한, 활동 규칙과 학습 규칙도 동일하게 매핑됨을 보였습니다.

3. 주요 기여 (Key Contributions)

PCGs 가 FNN 의 수학적 초집합임의 증명:
- PCNs 가 테스트 시 FNN 과 동등하고, PCGs 가 PCNs 를 포함하므로, PCGs 는 FNN 을 포함하는 수학적 초집합임을 논리적으로 증명했습니다.
- 이는 FNN 의 핵심 이론적 토대인 보편적 근사 정리 (UAT) 가 PCNs 및 특정 구조의 PCGs 에도 적용됨을 의미합니다. (이전까지는 PC 커뮤니티 내에서 추측만 존재했으나 공식적 증명이 없었습니다.)
비계층적 구조와 Skip Connection 의 통합적 이해:
- PCG 의 가중치 행렬에서 계층적 연결 (Feedforward) 만 선택하면 FNN/PCN 이 되고, Skip Connection(잔차 연결), 역방향 연결, 측방향 연결을 추가하면 FNN 으로 학습 불가능한 새로운 구조를 얻을 수 있음을 보였습니다.
- ResNet 의 핵심인 Skip Connection 이 PCG 의 가중치 행렬의 일부로 자연스럽게 해석될 수 있음을 시각화했습니다.
순환 (Recurrence) 의 재정의:
- 기존 RNN 의 '데이터 시간 (Data time)'에 따른 순환과 달리, PCG 의 순환은 '추론 시간 (Inference time)'에 발생함을 명확히 구분했습니다. 이는 Hopfield 네트워크와 유사한 특성을 가집니다.

4. 결과 (Results)

이론적 결과:
- Theorem 1: 테스트 단계에서 PCN 은 FNN 과 완전히 동등하다.
- Theorem 2: 특정 가중치 행렬 선택 하에서 PCG 는 PCN 과 구조적, 동역학적으로 동등하다.
- 결론: PCGs 는 FNN 의 일반화이며, FNN 은 PCGs 의 특수한 경우 (Case) 입니다.
실용적 관찰:
- PCG 는 BP 로 학습할 수 없는 루프나 비계층적 구조를 학습할 수 있습니다 (IL, Inference Learning 사용).
- MNIST 분류 실험에서 기존 Hopfield 네트워크나 볼츠만 머신보다 훨씬 우수한 성능을 보였으나, 완전 연결 (All-to-all) PCG 는 계층적 PCN/FNN 보다 성능이 떨어지는 경향이 있었습니다. 이는 네트워크 위상 (Topology) 의 중요성을 시사합니다.
- 계산 비용: PCG 의 추론은 FNN 의 $O(LM)$ 대비 $O(N^2 T)$ (T 는 추론 단계 수) 로 더 비쌀 수 있으나, 희소성 (Sparsity) 을 활용하면 $O(dNT)$ 로 줄일 수 있습니다.

5. 의의 (Significance)

이론적 정립: 예측 코딩 기반 모델이 기존 딥러닝 (FNN) 을 대체하거나 확장하는 것이 아니라, 이를 포함하는 더 넓은 수학적 프레임워크임을 입증하여 머신러닝 이론에 기여했습니다.
생물학적 타당성과 ML 의 연결: BP 를 사용하지 않는 생물학적으로 더 타당한 학습 알고리즘 (IL) 이면서도 FNN 의 이론적 강점 (UAT) 을 유지할 수 있음을 보였습니다.
네트워크 위상 연구의 새로운 방향: Skip Connection 이나 비계층적 연결이 왜 중요한지에 대한 새로운 관점을 제공하며, PCGs 를 통해 네트워크 위상 (Topology) 이 학습 성능에 미치는 영향을 연구할 수 있는 강력한 프레임워크를 제시했습니다.
실험적 연구의 가이드: 수학적 증명을 통해 향후 PCNs/PCGs 에 대한 실험적 연구를 위한 이론적 제약과 방향성을 제시했습니다.

요약하자면, 이 논문은 예측 코딩 그래프 (PCGs) 가 단순한 신경망의 변형이 아니라, FNN 을 포함하는 더 포괄적인 수학적 구조임을 증명함으로써, 예측 코딩을 현대 머신러닝의 핵심 이론으로 자리 잡게 하는 중요한 이정표가 되었습니다.