Predictive Coding Networks and Inference Learning: Tutorial and Survey

Each language version is independently generated for its own context, not a direct translation.

1. 기존 AI vs. 새로운 AI: "선생님의 일방적 지시" vs. "스스로 추측하고 수정하는 학생"

**기존 AI (역전파, Backpropagation)**는 마치 엄격한 선생님이 학생에게 정답을 알려주고, 틀린 부분을 일일이 지적해 주는 방식과 같습니다.

학생이 문제를 풀고 (입력), 선생님이 정답을 비교합니다.
틀린 부분이 있으면, 선생님은 "너는 여기서 10 점, 여기서 20 점 틀렸어"라고 뒤에서부터 앞으로 차근차근 가르쳐 줍니다.
이 방식은 매우 강력하지만, 뇌가 실제로 작동하는 방식과는 다릅니다. 뇌는 정답을 미리 알지 못하는데도 학습을 하니까요.

**새로운 AI (예측 코딩 네트워크, PCN)**는 스스로 추측하고, 실수를 고쳐 나가는 학생과 같습니다.

학생은 문제를 풀기 전에 "아마 이 답이겠지?"라고 예측을 합니다.
실제 정답 (또는 다음 단계의 정보) 을 보고, "아, 내가 예상한 것과 달라! 이 차이를 '오류'라고 부르지!"라고 생각합니다.
이 **오류 (예측과 실제의 차이)**가 뇌의 하위 층에서 상위 층으로 올라가며, 뇌는 "다음엔 이 오류가 없도록 내 추측을 고쳐야지"라고 학습합니다.
핵심: 정답을 알려주는 게 아니라, **"내가 잘못 예측한 부분 (오류)"**을 통해 스스로 배웁니다.

2. 이 기술의 세 가지 멋진 특징

이 논문은 PCN 을 세 가지 다른 시선으로 바라봅니다.

① "모든 구조를 다 할 수 있는 만능 도구" (일반화된 ANN)

기존 AI 는 주로 '층 (Layer)'이라는 계단식 구조만 다뤘습니다. 하지만 PCN 은 아무 모양이나 가능한 구조를 다룰 수 있습니다.

비유: 기존 AI 가 '직선으로만 달리는 기차'라면, PCN 은 미로 속을 자유롭게 돌아다니는 탐험가입니다. 계단식 구조뿐만 아니라, 뇌처럼 복잡하게 얽힌 네트워크도 학습할 수 있어 훨씬 유연합니다.

② "확률로 세상을 이해하는 통계학자" (확률적 잠재 변수 모델)

PCN 은 단순히 정답을 맞추는 게 아니라, **"이 데이터가 나올 확률은 얼마나 될까?"**를 계산합니다.

비유: 기존 AI 가 "이 사진은 고양이야!"라고 딱 잘라 말한다면, PCN 은 "이 사진은 90% 확률로 고양이이고, 10% 는 강아지일 수도 있어"라고 불확실성을 고려하며 학습합니다. 이는 생성형 AI(새로운 그림을 그리는 AI) 를 만들 때 매우 유용합니다.

③ "생물학적으로 더 그럴듯한 학습법" (추론 학습, IL)

기존 방식은 컴퓨터가 순서대로 계산해야 해서 속도가 느릴 수 있습니다. 하지만 PCN 의 학습 방식인 **'추론 학습 (Inference Learning)'**은 모든 층이 동시에 (병렬로) 계산할 수 있습니다.

비유: 기존 방식은 "1 번 층이 계산 끝나야 2 번 층이 시작해"라고 줄 서서 기다리는 방식이라면, PCN 은 모든 층이 동시에 "내 오류는 뭐지?"라고 외치며 한 번에 해결하는 방식입니다.
장점: 컴퓨터 칩 (특히 뇌처럼 생긴 뉴로모픽 칩) 에서 이 방식은 훨씬 빠르고 에너지를 적게 쓸 수 있습니다.

3. 왜 이것이 중요할까요? (실제 효과)

더 빠른 학습: 특히 '연속 학습' (새로운 것을 배우면서 이전 것을 잊지 않는 것) 이나 '온라인 학습' (데이터가 하나씩 들어올 때 바로 학습) 에서 기존 AI 보다 훨씬 잘 작동합니다.
더 적은 데이터: 적은 데이터로도 잘 학습할 수 있어, 데이터를 많이 구하기 힘든 상황에서도 유용합니다.
뇌와 더 가까움: 뇌가 실제로 어떻게 정보를 처리하는지 (예측을 하고 오류를 수정하는 방식) 를 더 잘 반영하므로, 앞으로 더 똑똑하고 인간 같은 AI 를 만드는 데 핵심이 될 것입니다.

4. 결론: 앞으로의 AI 는 어떻게 변할까?

이 논문은 **"AI 가 이제부터는 단순히 정답을 외우는 기계가 아니라, 예측을 하고 실수를 통해 스스로 성장하는 존재가 되어야 한다"**고 말합니다.

기존의 강력한 AI 기술 (역전파) 을 완전히 버리는 것이 아니라, 뇌의 방식을 모방한 예측 코딩 (PCN) 을 더하면 AI 는 더 유연하고, 효율적이며, 인간처럼 학습할 수 있게 될 것이라고 전망합니다.

한 줄 요약:

"기존 AI 는 선생님이 일일이 가르쳐 주는 방식이라면, 새로운 AI(예측 코딩) 는 스스로 추측하고 실수를 고치며 배우는 똑똑한 학생입니다. 이 방식은 더 빠르고, 에너지를 적게 쓰며, 뇌처럼 유연하게 작동할 수 있어 미래 AI 의 핵심 열쇠가 될 것입니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 예측 코딩 네트워크 (PCN) 와 추론 학습 (IL)

1. 문제 제기 (Problem)

생물학적 학습의 한계: 최근 딥러닝의 급격한 발전에도 불구하고, 인공지능 (AI) 은 인간 뇌의 유연성, 에너지 효율성, 데이터 효율성 측면에서 여전히 뒤처져 있습니다.
역전파 (Backpropagation, BP) 의 생물학적 비현실성: 현대 딥러닝의 핵심인 역전파 알고리즘은 뇌의 신경 메커니즘을 설명하지 못하며, 전역적인 오차 전파와 비국소적 (non-local) 인 가중치 업데이트를 요구하여 생물학적 타당성이 낮습니다.
PCN 의 이해 부족: 신경과학에서 제안된 '예측 코딩 (Predictive Coding, PC)' 프레임워크는 뇌가 예측 오차를 최소화하는 계층적 베이지안 추론 모델로 작동한다고 보지만, 머신러닝 (ML) 커뮤니티에서는 최근까지 제대로 조명받지 못했습니다. 기존 연구들은 PCN 을 단순히 BP 의 대안으로만 보거나, 수학적 형식화가 부족하여 ML 실무자들이 접근하기 어려웠습니다.
확장성 및 효율성 문제: 기존 PCN 구현은 BP 대비 계산 비용이 높았으며, 대규모 모델이나 심층 네트워크에서의 성능과 확장성에 대한 명확한 증거가 부족했습니다.

2. 방법론 (Methodology)

저자들은 PCN 을 세 가지 상호 보완적인 관점에서 체계적으로 분석하고 형식화했습니다.

A. 일반화된 인공 신경망 (Generalized ANNs) 관점:
- 구조: PCN 은 피드포워드 신경망 (FNN) 의 확장으로, 하향식 (예측) 과 상향식 (오차) 연결을 모두 갖는 계층적 구조를 가집니다.
- 학습 알고리즘 (Inference Learning, IL): BP 와 달리, IL 은 가중치 업데이트 전에 뉴런의 활동 (activation) 을 최적화하는 '추론 (inference)' 단계를 거칩니다. 이는 에너지 함수 (예측 오차의 제곱합) 를 최소화하는 과정으로, 국소적 (local) 정보만 사용하여 병렬화가 가능합니다.
- 확장: PCN 을 계층 구조를 넘어 임의의 그래프 (PC Graphs) 로 일반화하여, BP 로는 학습 불가능한 비계층적 구조도 학습할 수 있음을 보였습니다.
B. 확률적 잠재 변수 모델 (Probabilistic Latent Variable Models) 관점:
- PCN 은 잠재 변수가 있는 계층적 가우시안 모델로 해석될 수 있으며, 기대값 최대화 (Expectation Maximization, EM) 알고리즘의 일종으로 볼 수 있습니다.
- E-step: 관측된 데이터와 고정된 레이블 하에서 잠재 변수 (은닉 노드 활동) 를 추론 (에너지 최소화).
- M-step: 추론된 활동을 기반으로 가중치를 업데이트.
- 이 관점은 PCN 을 변분 오토인코더 (VAE) 나 확산 모델 (Diffusion Models) 과 같은 생성 모델과 연결합니다.
C. 학습 알고리즘으로서의 IL:
- IL 은 BP 와 수학적으로 밀접한 관련이 있지만, 예측적 구성 (Prospective Configuration) 원리를 따릅니다. 즉, 가중치 변경 전에 활동 패턴이 먼저 변화하여 미래 입력을 더 잘 예측하도록 조정됩니다. 이는 2 차 정보 (곡률) 에 민감하게 반응하여 BP 보다 빠른 수렴과 saddle point 회피 능력을 가질 수 있음을 시사합니다.

3. 주요 기여 (Key Contributions)

포괄적인 형식적 명세 (Formal Specification): ML 실무자를 대상으로 PCN 과 IL 에 대한 체계적인 튜토리얼 및 수학적 정의를 제공했습니다.
다양한 관점의 통합: PCN 을 (1) 일반화된 ANN, (2) 확률적 잠재 변수 모델, (3) BP 와 비교되는 학습 알고리즘으로 통합하여 정리했습니다.
ANN 의 수학적 초집합 (Superset) 증명: PCN 과 PC Graphs 의 구조가 전통적인 피드포워드 ANN 을 포함하는 더 넓은 집합임을 수학적으로 규명했습니다. 이는 BP 로 학습할 수 없는 새로운 네트워크 토폴로지를 연구할 수 있는 기반을 마련했습니다.
실용적 도구 제공: PyTorch 기반의 Python 라이브러리 (PRECO) 를 공개하여 PCN 과 PC Graphs 를 직접 구현하고 실험할 수 있도록 했습니다.
생성 모델로서의 PCN: 지도 학습 (분류) 뿐만 아니라 비지도 학습 (생성, 재구성) 에서의 PCN 활용 방식을 명확히 구분하고 설명했습니다.

4. 결과 (Results)

성능 비교:
- 소규모 데이터/모델: MNIST, CIFAR-10 등 작은 데이터셋과 MLP/작은 CNN 에서 IL 은 BP 와 유사한 정확도를 보였습니다.
- 대규모 데이터/모델: 초기 연구에서는 VGG, ResNet 등 깊은 네트워크에서 IL 의 성능이 BP 보다 떨어지는 경향이 있었습니다. 하지만 최근 연구 (Depth- $\mu$ P 기법 적용) 를 통해 100 층 이상의 매우 깊은 ResNet 에서도 BP 와 경쟁력 있는 성능을 달성할 수 있음이 입증되었습니다.
- 특수 작업: 연속 학습 (Continual Learning), 온라인 학습, 개념 변화 (Concept Drift) 작업에서 IL 이 BP 보다 우수한 성능 (최대 20% 향상) 을 보이며, '재앙적 간섭 (Catastrophic Interference)' 문제를 완화하는 것으로 나타났습니다.
수렴 속도: IL 은 에포크 (epoch) 단위로 볼 때 BP 보다 빠르게 수렴하는 경향이 있으며, 이는 2 차 정보 활용과 saddle point 회피 능력 때문입니다.
계산 효율성: IL 은 계층 간 병렬화가 가능하여, 충분히 병렬화된 환경에서는 네트워크 깊이에 비례하지 않는 시간 복잡도 ( $O(M)$ ) 를 가질 수 있어, BP 의 순차적 업데이트 ( $O(LM)$ ) 보다 깊은 네트워크에서 유리할 수 있습니다.
생성 모델 성능: 생성적 PCN 은 VAE 나 GAN 과 비교하여 로그 가능도 (log-likelihood) 및 FID 점수에서 경쟁력 있는 결과를 보여주었습니다.

5. 의의 및 결론 (Significance)

NeuroAI 의 핵심 프레임워크: 이 논문은 신경과학에서 영감을 받은 'NeuroAI' 연구의 중요한 축인 PCN 을 ML 커뮤니티에 체계적으로 소개하며, 생물학적 학습 메커니즘과 AI 를 연결하는 가교 역할을 합니다.
차세대 학습 알고리즘의 가능성: IL 은 BP 의 한계 (생물학적 비현실성, 국소성 부재, 깊은 네트워크에서의 기울기 소실/폭발) 를 해결할 잠재력을 가지며, 특히 뉴로모픽 하드웨어 (Neuromorphic Hardware) 에 최적화된 알고리즘으로 주목받고 있습니다.
이론적 기반 강화: PCN 을 단순한 신경망 아키텍처를 넘어 확률적 모델과 최적화 이론 (Trust Region, Implicit SGD 등) 과 연결함으로써, 향후 더 발전된 베이지안 딥러닝 및 생성 모델 개발의 이론적 토대를 마련했습니다.
향후 연구 방향: 대규모 데이터셋에서의 확장성, 생성 모델의 효율성 최적화, 그리고 PC Graphs 를 활용한 새로운 토폴로지 연구가 필요한 분야로 제시됩니다.

결론적으로, 이 논문은 예측 코딩 네트워크가 단순한 신경과학 이론을 넘어, 현대 머신러닝의 구조적, 알고리즘적, 확률적 측면을 아우르는 강력하고 유연한 프레임워크임을 증명하며, 향후 AI 연구의 중요한 방향성을 제시합니다.