Lecture Notes on Statistical Physics and Neural Networks

다음은 올라프 호름의 강의 노트를 일상적인 비유로 쉽게 풀어낸 설명입니다.

큰 그림: 물리학과 인공지능의 만남

두 가지 매우 다른 세계를 상상해 보세요. 하나는 통계역학(자석이나 기체처럼 수조 개의 원자가 어떻게 함께 행동하는지 연구하는 학문) 이고, 다른 하나는 현대 AI 뒤의 컴퓨터 두뇌인 신경망입니다.

이 논문은 이 두 세계가 사실은 같은 언어를 사용하고 있다고 주장합니다. 물리학자인 저자는 원자가 패턴을 형성하는 방식을 설명하는 수학이 AI 에게 고양이 사진을 인식하거나 시를 쓰도록 훈련시키는 데 사용되는 수학과 거의 동일함을 보여주기 위해 이 노트를 작성했습니다. 그는 '온도', '에너지', '상전이'와 같은 핵심 개념들이 단지 동일한 통계적 아이디어를 가리키는 다른 이름일 뿐이므로, AI 가 어떻게 작동하는지 이해하기 위해 물리학자가 될 필요는 없다고 말하고 싶습니다.

제 1 부: 게임의 규칙 (통계역학 기초)

에너지 지형
거대하고 언덕진 지형을 상상해 보세요. 시스템 (자석이나 신경망 네트워크 등) 의 모든 가능한 배열은 이 지도 위의 특정 지점에 해당합니다.

에너지: 어떤 지점은 깊은 계곡 (낮은 에너지) 이고, 어떤 지점은 높은 봉우리 (높은 에너지) 입니다. 자연은 계곡을 좋아합니다. 시스템은 자연스럽게 가장 낮은 지점으로 굴러가려 합니다.
온도: 온도를 '떨림'으로 생각하세요.
- 차가움 (낮은 온도): 시스템은 차분합니다. 가장 깊은 계곡으로 곧바로 굴러가 그곳에 머뭅니다. 절대적으로 최선의 해결책만 신경 쓸 뿐입니다.
- 뜨거움 (높은 온도): 시스템은 불안정하게 떨립니다. 높은 봉우리와 깊은 계곡을 가리지 않고 격렬하게 뛰어다닙니다. '최고'의 지점에 크게 신경 쓰지 않고 그저 무작위로 떠돌아다닙니다.

볼츠만 분포
이것은 "특정 온도에서 시스템이 임의의 특정 지점에 있을 확률은 얼마인가?"라고 말하는 규칙집입니다.

차가우면 시스템은 거의 확실히 가장 깊은 계곡에 있습니다.
뜨거우면 시스템은 여기저기 퍼져 있지만, 그래도 봉우리보다는 계곡을 약간 더 선호합니다.

상전이
이는 물이 얼어 얼음이 되는 것과 같습니다.

사람 군중을 상상해 보세요. 그들이 모두 무작위로 움직이고 있다면 (뜨거움), 그들은 '기체'입니다. 만약 그들이 갑자기 완벽한 격자 모양으로 서서 손을 잡기로 결정한다면 (차가움), 그들은 상전이를 겪은 것입니다.
물리학에서 이는 특정한 '임계 온도'에서 발생합니다. 이 논문은 이러한 갑작스러운 변화를 시스템이 무한히 크다고 가정하지 않는 한 수학적으로 예측하기 어렵다고 설명합니다.

제 2 부: 재규격화 군 (줌아웃 렌즈)

이는 이 논문에서 가장 유명한 물리학 개념으로, 그러한 갑작스러운 상변화를 이해하는 데 사용됩니다.

비유: 군중 사진
사람들로 가득 찬 경기장의 사진이 있다고 상상해 보세요.

미시적 관점: 모든 개인을 봅니다. 누가 빨간 셔츠를 입고 있는지, 누가 파란 셔츠를 입고 있는지, 누가 손을 흔들고 있는지 봅니다. 이는 너무 많은 세부 사항입니다.
'줌아웃' (RG): 한 걸음 물러서 봅니다. 개인을 보는 대신 4 명씩 묶은 블록을 봅니다. "이 블록의 평균 색상은 무엇인가?"라고 묻습니다.
결과: 이제 더 적은 '픽셀'(블록) 을 가진 새롭고 더 작은 사진을 갖게 되지만, 여전히 경기장처럼 보입니다. 이 블록들이 상호작용하는 규칙은 개인들이 상호작용하는 규칙과 약간 다르지만, 사진의 유형은 동일합니다.

왜 중요한가:
계속해서 줌아웃을 하면 (이 과정을 반복하면) 결국 '큰 그림'을 보게 됩니다.

시스템이 정상 상태에 있다면, 줌아웃된 사진은 결국 지루하고 균일한 회색 덩어리로 보입니다.
시스템이 임계점(물이 얼어붙는 정확한 순간과 같은) 에 있다면, 줌아웃된 사진은 얼마나 줌아웃하든 정확히 동일하게 보입니다. 이는 '규모 불변성'을 가집니다. 이는 물리학자들에게 큰 변화 (상전이) 가 일어나고 있음을 알려줍니다.

제 3 부: 회전하는 자석으로서의 신경망

이 논문은 이러한 물리학을 홉필드 네트워크와 볼츠만 머신과 연결합니다.

자석으로서의 뉴런

자석에서 원자는 '위' (+1) 또는 '아래' (-1) 로 회전할 수 있습니다.
홉필드 네트워크에서 '뉴런'은 '켜짐' (+1) 또는 '꺼짐' (-1) 일 수 있습니다.
연결: 자석이 이웃에게 영향을 미치듯 (하나라가 위로 회전하면 이웃도 위로 회전하기를 원함), 뉴런도 '가중치'로 서로에게 영향을 미칩니다.
기억: 홉필드 네트워크는 많은 계곡이 있는 지형과 같습니다. 각 계곡은 하나의 기억 (예: 얼굴 사진) 을 나타냅니다. 네트워크에 흐릿하고 노이즈가 섞인 얼굴 이미지를 주면, 그것은 에너지 언덕을 따라 '굴러가' 올바른 계곡에 정착함으로써 효과적으로 깨끗한 이미지를 '기억'합니다.

볼츠만 머신 (확률적 버전)

표준 홉필드 네트워크는 결정론적입니다. 항상 바닥으로 굴러갑니다.
볼츠만 머신은 '온도'를 추가합니다. 이는 네트워크가 가끔 계곡에서 뛰어오를 수 있게 합니다. 이는 지형을 더 잘 탐색하고 '국소 최소값'(가장 깊은 계곡이 아닌 작은 함정) 에 갇히는 것을 방지하는 데 도움이 됩니다.
학습: 목표는 '가중치'(연결) 를 조정하여 네트워크의 자연스러운 '계곡'이 학습하려는 데이터 (예: 손글씨 숫자 데이터셋) 와 일치하도록 하는 것입니다.

제한된 볼츠만 머신 (RBM) 과 '은닉' 층

보이는 층 (볼 수 있는 데이터) 과 은닉 층(볼 수 없는 뉴런) 이 있다고 상상해 보세요.
이 논문은 은닉 뉴런을 '적분하여 제거하는 것'이 정확히 재규격화 군의 '줌아웃'과 같다고 설명합니다.
수학적으로 은닉 뉴런을 제거함으로써 보이는 뉴런에 대한 새롭고 더 간단한 규칙 세트를 얻습니다. 이는 기계가 모든 단일 은닉 세부 사항을 명시적으로 계산할 필요 없이 복잡한 패턴을 학습할 수 있게 합니다.

제 4 부: 현대 딥러닝과 대규모 언어 모델 (LLM)

이 논문은 이러한 오래된 '볼츠만' 아이디어에서 현대 AI 로 이동합니다.

딥러닝

단순히 하나의 은닉 층 대신, 현대 네트워크는 서로 위에 쌓인 많은 층을 가지고 있습니다.
역전파: 이것이 '학습' 알고리즘입니다. 공을 목표에 던졌는데 빗나갔다고 상상해 보세요. 얼마나 빗나갔는지 정확히 계산한 후, 오차를 네트워크의 모든 층을 통해 거꾸로 추적하고 다음 번에 더 잘 조준하기 위해 가중치를 약간 조정합니다. 이것이 네트워크가 고양이를 인식하거나 언어를 번역하는 방법을 학습하는 방식입니다.

대규모 언어 모델 (LLM)

작업: 문장에서 다음 단어를 예측합니다.
메커니즘: 이 논문은 트랜스포머 아키텍처를 설명합니다.
- 임베딩: 모든 단어는 그 의미를 나타내는 벡터 (숫자 목록) 로 변환됩니다.
- 어텐션: 이것이 마법의 소스입니다. 모델이 문장을 읽을 때 이전 단어만 보는 것이 아니라, 현재 단어와 가장 관련이 있는 이전 단어들을 파악하기 위해 모든 이전 단어에 '주목'합니다. (예: "강의 둑"에서 "둑"이 돈이 아니라 물과 관련이 있음을 "강" 때문에 안다는 것).
물리학적 연결: LLM 이 복잡한 수학을 사용하지만, 다음 단어를 예측하는 마지막 단계는 본질적으로 볼츠만 분포입니다. 모델은 가능한 모든 다음 단어에 '에너지'를 할당합니다. 에너지가 가장 낮은 단어 (확률이 가장 높은 단어) 가 가장 가능성 있는 선택입니다.
AI 의 온도: 물리학에서와 마찬가지로 LLM 의 '온도'를 조정할 수 있습니다.
- 낮은 온도: 모델은 매번 가장 가능성 있는 단일 단어를 선택합니다 (매우 안전하지만 지루함).
- 높은 온도: 모델은 더 많은 위험을 감수하여 덜 가능성 있는 단어를 선택하므로 텍스트가 더 창의적이 됩니다 (때로는 nonsensical 해짐).

제 5 부: 미래 (스케일링 법칙)

이 논문은 현대 AI 의 이상한 현상인 스케일링 법칙을 살펴봄으로써 끝납니다.

관측: AI 모델을 더 크게 만들면 (더 많은 뉴런) 더 많은 데이터를 공급하면, 성능이 조금 나아지는 것을 넘어 예측 가능하고 수학적인 방식 (멱법칙) 으로 개선됩니다.
물리학적 연결: 이는 상전이 근처의 통계역학에서 발견되는 스케일링 법칙과 정확히 같습니다. 물리학에서는 서로 다른 물질 (물, 자석, 철) 이 미시적 세부 사항과 관계없이 임계점 근처에서 동일한 방식으로 행동합니다.
추측: 저자는 딥러닝에도 자체적인 '열역학'이 있을 수 있다고 제안합니다. 원자가 무엇으로 만들어졌든 원자의 행동 방식을 지배하는 보편적 규칙이 있듯이, AI 가 개선되는 방식을 지배하는 보편적 규칙이 있을지도 모릅니다.

요약

이 논문은 다리입니다. 현대 AI 의 '마법'은 마법이 아니라 통계임을 우리에게 알려줍니다. 뉴런을 원자처럼, 학습을 뜨거운 시스템을 식히는 것처럼 취급함으로써, 우리는 인공지능이 어떻게 학습하고, 기억하며, 진화하는지 이해하기 위해 물리학의 강력한 도구를 사용할 수 있습니다.

기술적 요약: 통계물리학과 신경망에 대한 강의 노트

문제 제기
본 강의 노트는 고전 통계물리학과 현대 신경망 및 딥러닝의 이론적 기반을 연결할 필요성에 대응합니다. 저자는 표준 물리학 교육과정에서 위상 전이, 재규격화 군 (RG), 볼츠만 분포와 같은 개념들이 인공지능 (AI) 과 거의 연결되지 않는 간극을 지적합니다. 이는 온도, 엔트로피, 에너지와 같은 공유된 어휘와 수학적 구조에도 불구하고 그러합니다. 본 강의의 목표는 통계물리학을 확률론의 한 분야로 제시하여 물리학 사전 지식이 없는 독자들도 이러한 개념에 접근할 수 있게 하는 동시에, 홉필드 네트워크에서 대규모 언어 모델 (LLM) 에 이르기까지 신경망의 메커니즘에 대한 기술적 소개를 제공하는 것입니다.

방법론
본 노트는 유한 구성 공간에 대한 확률 분포의 틀로서 통계역학을 다루고, 결국 열역학적 극한 ( $N \to \infty$ ) 을 취하는 교육학적 접근법을 사용합니다. 방법론은 다음 네 가지 주요 단계를 거칩니다:

통계물리학의 기초: 텍스트는 유한 구성 공간에서 볼츠만 - 깁스 분포 $P_\beta(x) \propto e^{-\beta E(x)}$ 를 정의합니다. 자유 에너지, 엔트로피와 같은 열역학적 퍼텐셜을 도입하고, 위상 전이를 열역학적 극한에서 발생하는 특이점으로 정의합니다. 이징 모델 (1 차원 및 2 차원) 과 큐리 - 바이스 모델을 주요 예시로 사용하여 정확한 해와 위상 전이의 발생을 시연합니다.
재규격화 군 (RG): RG 는 자유도를 '적분하여 제거 (integrating out)'함으로써 위상 전이를 식별하는 방법으로 소개됩니다. 이는 1 차원 및 2 차원 이징 모델에 대해 명시적으로 시연되는데, 스핀 부분집합에 대한 합을 구함으로써 결합 상수의 변환이 유도됩니다. 노트는 스케일 불변성과 임계 지수를 설명하기 위해 RG 흐름, 고정점, 그리고 안정성 (관련 섭동 대 무관 섭동) 을 분석합니다.
신경망 모델: 노트는 스핀 글라스 모델을 신경망에 매핑합니다.
- 홉필드 네트워크: 스핀 글라스 해밀토니안과 동일한 에너지 함수를 최소화하도록 진화하는 결정론적 동역학 시스템으로 정의되며, 여기서 뉴런 상태 ( $\sigma_i = \pm 1$ ) 가 변화합니다.
- 볼츠만 머신: 온도 매개변수에 의해 지배되는 홉필드 네트워크의 확률적 버전으로 소개됩니다. 학습 알고리즘은 역문제로 제시되며, 가중치를 조정하여 데이터 분포와 볼츠만 분포 간의 쿨백 - 라이블러 발산을 최소화합니다.
- 제한된 볼츠만 머신 (RBM): 가시 뉴런과 은닉 뉴런은 연결되지만 동일 층 내의 뉴런들은 연결되지 않는 특정 아키텍처입니다. 노트는 가시 뉴런을 위한 유효 에너지 함수를 유도하기 위해 은닉 뉴런을 '적분하여 제거'하는 과정을 상세히 기술하며, 이를 RG 변환과 명시적으로 비교합니다.
딥러닝 및 LLM: 노트는 현대 딥러닝으로 전환하여 경사 하강법을 통한 손실 함수 최소화를 위한 순전파 네트워크와 역전파 알고리즘을 설명합니다. 마지막으로, 토큰 임베딩, 위치 인코딩, 그리고 어텐션 메커니즘 (싱글 헤드 및 멀티 헤드) 에 초점을 맞춰 대규모 언어 모델 (트랜스포머) 의 아키텍처를 기술합니다. 생성 과정은 출력 로짓에 적용된 온도 매개변수를 통해 볼츠만 분포와 연결됩니다.

주요 기여 및 결과

개념의 통합: 텍스트는 스핀 글라스 모델 (이징, 에드워즈 - 앤더슨) 을 지배하는 에너지 함수가 홉필드 네트워크와 볼츠만 머신의 에너지 함수와 수학적으로 동일함을 성공적으로 시연합니다. 이는 변수 (스핀 대 뉴런) 와 매개변수 (결합 대 가중치) 의 해석에서만 차이가 있을 뿐입니다.
RG 와 RBM: RBM 에서 은닉 뉴런을 적분하여 제거함으로써 가시 뉴런을 위한 유효 에너지 함수가 유도된다는 명시적 유도가 구체적인 기술적 기여입니다. 노트는 주된 차수에서 이것이 원래 가시 - 은닉 가중치에서 유도된 유효 결합을 가진 스핀 글라스 유형의 모델로 귀결됨을 보여주며, '은닉 층' 개념에 대한 구체적인 통계물리학적 해석을 제공합니다.
모델 내 위상 전이: 노트는 1 차원 이징 모델에 대한 정확한 해 (위상 전이가 없음) 와 2 차원 이징 모델에 대한 근사적 RG 분석 (비자명한 고정점 및 2 차 위상 전이 식별) 을 제공합니다. 큐리 - 바이스 모델은 자화의 분기를 통해 평균장 위상 전이를 시연하는 데 사용됩니다.
스케일링 법칙: 전망 부분에서 노트는 LLM 에서 관찰된 경험적 '스케일링 법칙'을 강조합니다. 여기서 훈련 손실은 매개변수 수, 데이터셋 크기, 그리고 연산량에 대한 멱함수 의존성을 따릅니다. 이러한 것들은 통계물리학의 임계 지수와 비교되어 딥러닝 성능에 대한 잠재적 보편성을 시사합니다.
알고리즘적 세부사항: 노트는 다음에 대한 단계별 유도를 제공합니다:
- 1 차원 이징 모델을 위한 전이 행렬 방법.
- 안정성 고유값을 결정하기 위한 RG 흐름의 선형화.
- 데이터와 모델 상관관계의 차이를 포함하는 볼츠만 머신을 위한 경사 하강법 업데이트 규칙.
- 연쇄 법칙과 하마르드 곱을 사용하는 역전파 알고리즘.
- 트랜스포머 어텐션 메커니즘과 소프트맥스 출력의 수학적 공식화.

의의 및 주장
저자는 본 노트가 물리학 전공 학생들에게 AI 뒤의 통계역학을 이해하기 위한 자기완결적 소개 역할을 하며, 반대로 신경망에 대한 통계물리학적 관점을 제공한다고 주장합니다.

접근성: 노트는 신경망에 적용하기 전에 이징 모델의 더 단순한 맥락에 기반하여 재규격화 군과 같은 고급 개념을 접근 가능하게 만듭니다.
딥러닝에 대한 동기부여: 텍스트는 현대 딥러닝 (예: 트랜스포머) 이 엄밀히 볼츠만 머신 학습 알고리즘을 사용하지는 않지만, 은닉 뉴런 층에 숨겨진 규칙성을 인코딩한다는 핵심 아이디어는 여전히 중심적이라고 지적합니다. 노트는 RBM 에서의 은닉 변수 '적분 제거'가 딥러닝의 계층적 특징 추출에 대한 개념적 선구자임을 시사합니다.
이론적 틀: 저자는 딥러닝의 성공, 특히 일반화 곡선에서의 '이중 하강 (double descent)' 현상과 LLM 의 멱함수 스케일링이 결국 열역학 또는 통계역학과 유사한 이론적 틀을 필요로 할 것이라고 가설화합니다. 노트는 이러한 문제들을 해결했다고 주장하지는 않지만, 미래의 딥러닝 이론이 설명해야 할 정량적 경험적 관찰로 식별합니다.
교육적 실험: 저자는 본 노트가 AI 어시스턴트를 사용하여 AI 의 기술적 세부사항을 학습하는 실험의 결과이며, 모든 계산과 증명에 대한 엄격한 수동 검증을 유지했다고 명시적으로 밝힙니다.

본 논문은 통계물리학과 현대 LLM 간의 연결이 현재 볼츠만 머신만큼 명확하지는 않지만, 공유된 수학적 구조 (스케일링 법칙, 에너지 지형) 가 통계물리학 개념이 대규모 신경망의 행동에 대한 귀중한 통찰력을 제공할 수 있음을 시사한다고 강조하며 결론을 맺습니다.