Integrating Out, Twice:The Open-System Case That Neural-Network Ensemble… — 쉬운 설명

핵심 아이디어: 무언가를 무시하는 두 가지 방법

당신이 복잡한 시스템, 예를 들어 북적이는 방이나 신경망(AI의 한 종류)을 이해하려고 노력하고 있다고 상상해 보세요. 때로는 시스템의 모든 사람이나 모든 숫자를 추적할 수 없습니다. 당신은 집중하고자 하는 부분에 주목하기 위해 시스템의 일부를 무시하기로 결정해야 합니다.

물리학과 수학에서, 시스템의 일부를 "무시"하거나 "적분하여 없애는(integrating out)" 행위는 표준적인 기법입니다. 저자인 진 레이(Jin Lei)는 이 작업에 두 가지 매우 다른 방식이 있으며, AI 연구자들은 주로 한 가지 방식을 사용하는 반면, 핵물리학자들은 다른 한 방식을 완벽하게 숙달했다라고 주장합니다.

1. "닫힌(Closed)" 방식 (AI가 하는 방식)

비유: 친구들의 사진을 찍고 있는데, 배경을 흐릿하게 처리(블러 처리)하기로 했다고 상상해 보세요.

무슨 일이 일어나는가: 배경의 세부 정보는 잃게 되지만, 친구들의 사진은 여전히 완벽하게 선명하고 "온전한" 상태로 남습니다. 배경을 흐리게 했다고 해서 친구들에게서 빛이나 에너지를 뺏어가는 것은 아닙니다. 단지 배경 데이터를 제거했을 뿐입니다.
AI에서의 의미: AI 연구자들이 신경망의 무작위 숫자(파라미터)를 평균화할 때, 그 결과는 "닫힌" 형태가 됩니다. 수학적 구조는 단순하고, 실재하며, 대칭적입니다. 이는 손실이 없는 요약입니다. 아무것도 "탈출"하지 않습니다.

2. "열린(Open)" 방식 (핵물리학이 하는 방식)

비유: 당신은 문이 살짝 열려 있는 방 안에 있습니다. 당신은 방 안의 공기 압력을 추적하려고 합니다.

무슨 일이 일어나는가: 문을 통해 공기가 새 나갑니다. 만약 당신이 방 내부의 공기만을 설명하려고 한다면, 당신의 설명은 공기가 빠져나가고 있다는 사실을 반드시 고려해야 합니다. 수학은 "새는 듯하고(leaky)" 복잡해집니다. 당신은 정확히 얼마나 많은 공기가 빠져나갔고 어디로 갔는지에 대한 엄격한 장부(영수증)를 기록해야 합니다.
핵물리학에서의 의미: 이것을 **광학 모델(Optical Model)**이라고 부릅니다. 핵이 입자와 상호작용할 때, 일부 입자는 "연속체(continuum, 나머지 우주)"로 탈출합니다. 핵을 설명하는 수학은 "비에르미트(non-Hermitian)"가 됩니다 (복잡하고 새는 성질을 가진다는 뜻의 어려운 표현입니다). 결정적으로, 이 수학에는 **플럭스 장부(Flux Ledger)**가 포함됩니다. 즉, 시스템을 떠난 확률이 정확히 얼마인지에 대한 회계 기록입니다.

논문의 주요 주장

저자는 다음과 같이 말합니다: "AI는 오직 '닫힌' 버전만 수행하고 있습니다. AI는 '열린' 버전을 놓치고 있습니다."

AI 연구자들은 자신들의 "닫힌" 수학과 핵물리학 사이를 번역할 수 있는 훌륭한 사전들을 가지고 있습니다. 예를 들어:

**뉴럴 탠전트 커널(Neural Tangent Kernel, AI가 학습하는 방식)**은 **피셔 민감도 커널(Fisher Sensitivity Kernel, 핵 모델이 변화에 얼마나 민감한지)**과 같습니다.
무한 폭(Infinite-width) AI는 **가우시안 프로세스(Gaussian Process, 표준 통계 도구)**와 같습니다.

하지만 저자는 AI가 "열린" 측면에 대해서는 눈이 멀어 있다고 주장합니다. AI는 자신이 버리는 정보(예: 문장에서 단어를 무시하거나 네트워크의 일부를 잘라내는 것)를 단순한 실수나 근사 오차로 취급합니다. 그것을 추적하고 보존해야 할 물리적 손실로 취급하지 않습니다.

"플럭스 장부(Flux Ledger)"

핵물리학에서 입자가 탈출할 때, 이론은 단순히 "앗, 무언가를 잃어버렸다"라고 말하지 않습니다. 대신 "우리는 채널 A로 0.5 유닛의 확률을, 채널 B로 0.2 유닛의 확률을 잃었으며, 여기 그것을 증명하는 수학적 근거가 있다"라고 말합니다.

저자는 이 "플럭스 장부"를 AI를 위해 구축하려고 시도했습니다. 그는 이렇게 물었습니다. 만약 우리가 AI의 "무시된" 부분들을 새는 문처럼 취급한다면, 잃어버린 확률을 추적할 수 있을까?

놀라운 결과 (부정적인 발견)

저자는 이 "열린" 수학이 실제 AI 모델(대규모 언어 모델의 어텐션 메커니즘이나 어떤 전문가를 사용할지 선택하는 라우터 등)에서도 작동하는지 확인하기 위해 테스트를 수행했습니다.

결과: 대부분 실패했습니다.

이유는? "열린" 수학이 작동하려면, 무시되는 부분이 파동이 영원히 이동할 수 있는 무한한 바다(연속 스펙트럼)와 같아야 합니다.
문제점: AI 모델은 보통 유한하며 "소산적(dissipative, 에너지가 빠져나가며 안정화됨)"입니다. AI는 저런 "무한한 바다"와 같은 특성을 가지고 있지 않습니다.
결과: 저자가 "열린" 수학을 AI에 강제로 적용하려 했을 때, "플럭스 장부"는 존재하지 않거나, 혹은 그 "손실"은 실제 물리적 성질이 아니라 데이터를 자르는 과정에서 발생한 수학적 부산물(artifact)에 불과했습니다.

"환각(Hallucination)"의 반전

저자는 또한 인기 있는 아이디어를 살펴보았습니다. 이 "누출(leakage)" 수학이 AI가 환각(사실이 아닌 것을 지어내는 것)을 감지할 수 있을까?

답변은: 아니오입니다.

이유: AI가 확신을 가지고 환각을 일으킬 때, AI는 사실 매우 "닫혀" 있습니다. 즉, 잘못된 답에 강력하게 고착되어 있는 상태입니다. "누출(불확실성)"은 낮습니다. 왜냐하면 모델이 스스로를 확신하고 있기 때문입니다.
진정한 불확실성: 정말 중요한 불확실성(인식론적 불확실성—모델이 정답을 알고 있는지 여부)은 "열린" 부분이 아니라 "닫힌" 부분의 수학(앙상블의 분산)에 존재합니다.

요약

지도: 이 논문은 AI와 핵물리학이 무언가를 "무시하는" 방식에 대해 동일한 대수학을 공유한다는 지도를 그려냅니다.
간극: AI는 오직 "닫힌(손실이 없는)" 버전만을 사용합니다. 반면 핵물리학은 무엇을 잃었는지 엄격하게 계산하는 "열린(새는)" 버전에 대한 완전히 발달된 이론을 가지고 있습니다.
테스트: 저자는 이 "열린" 이론을 AI로 가져오려고 시도했습니다.
판결: 제대로 작동하지 않았습니다. 실제 AI 모델은 핵물리학이 사용하는 복잡하고 파동적인 "열린" 수학을 지원하기에는 너무 유한하고 "이완적(relaxational)"입니다. 저자가 찾고자 했던 "열린" 특징들은 존재하지 않거나, 단지 수학적 부산물일 뿐이었습니다.

요컨대: 이 논문은 하나의 경고입니다. 우리는 핵물리학에서 일부 수학을 빌려올 수는 있지만, 탈출하는 입자를 추적하기 위해 그들이 사용하는 특정한 "새는" 도구들은 현재의 AI 구조와 자연스럽게 맞물리지 않는다는 점을 알려줍니다. AI에서 "유용한" 불확실성은 "열린" 역학적 측면이 아니라 여전히 "닫힌" 통계적 측면에 머물러 있습니다.

Integrating Out, Twice:The Open-System Case That Neural-Network Ensemble Theory Is Missing