Empirical Asset Pricing via Ensemble Gaussian Process Regression

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "너무 많은 학생을 한 번에 가르치는 것은 불가능하다"

주식 시장은 매일 수만 개의 주식과 수많은 경제 지표가 얽혀 있어 매우 복잡합니다. 기존에 쓰이던 최신 인공지능 (신경망) 모델들은 이 방대한 데이터를 한 번에 학습하려고 합니다.

비유: 마치 수만 명의 학생을 한 교실에 모아놓고, 한 명의 선생님 (모델) 이 모든 것을 동시에 가르치려 하는 상황입니다.
- 문제점 1: 교실이 너무 커서 (데이터가 너무 많아서) 선생님이 모든 학생의 특징을 파악하는 데 시간이 너무 오래 걸리고, 컴퓨터가 과부하가 걸립니다.
- 문제점 2: 선생님이 "정답"만 알려줄 뿐, "내가 이 답을 얼마나 확신하는지"는 알려주지 않습니다. "이 학생이 시험에 떨어질 확률이 90% 일 수도 있는데, 그냥 점수만 알려주는 것"과 같습니다.

2. 해결책: "전문가 팀 (Ensemble) 과 그들의 '확신도'"

저자들은 이 문제를 해결하기 위해 **가우시안 프로세스 회귀 (GPR)**라는 방법을 사용하되, 이를 팀워크 (Ensemble Learning) 방식으로 바꿨습니다.

비유 1: "전문가 팀을 꾸리는 것"
- 수만 명의 학생을 한 번에 가르치지 않고, 작은 그룹 (월별 데이터) 으로 나누어 각각의 전문 교사 (모델) 를 배치합니다.
- 각 교사는 자신의 그룹만 집중적으로 가르칩니다. 이렇게 하면 컴퓨터 계산 속도가 훨씬 빨라지고, 새로운 데이터가 들어와도 기존 교사는 그대로 두고 새로운 교사를 추가하기만 하면 됩니다 (온라인 학습).
- 최종 답안은 이 모든 교사의 의견을 **가중치 (Weight)**를 두어 합칩니다. 최근 시장 상황과 비슷한 경험을 가진 교사의 의견을 더 많이 반영하는 식입니다.
비유 2: "예측의 '불확실성'을 함께 알려주는 나침반"
- 기존 AI 는 "내일 주가가 100 원 오를 것이다"라고 점수만 알려줍니다.
- 하지만 이 새로운 모델은 **"100 원 오를 것 같지만, 내 예측의 불확실성은 높아요 (나침반이 흔들림)"**라고 함께 알려줍니다.
- 핵심: 투자자는 이 '불확실성' 정보를 활용합니다. "예측은 좋지만 불확실성이 너무 높은 주식은 피하고, 예측도 좋고 불확실성이 낮은 주식에 투자"하는 것입니다.

3. 결과: "더 안전하고 더 수익이 나는 포트폴리오"

이 방법을 실제 미국 주식 시장 (1962~2016 년) 에 적용해 본 결과, 놀라운 성과가 나왔습니다.

통계적 성과: 기존 AI 모델들보다 주가 예측 정확도 (R-squared) 가 훨씬 높았습니다.
경제적 성과 (투자 수익):
- 불확실성 회피형 포트폴리오: "예측이 확실한 주식"에 집중하는 전략을 썼을 때, 기존 방식보다 리스크는 줄이고 수익은 훨씬 크게 얻었습니다.
- 샤프 비율 (위험 대비 수익률): 이 모델로 만든 포트폴리오의 수익률은 S&P 500 지수나 기존 방식보다 월등히 높았습니다. 특히, "예측이 확실한 주식"을 고르는 데 성공했습니다.

4. 어떤 정보가 가장 중요했을까?

모델이 가장 잘 활용한 정보들은 다음과 같습니다.

최근 가격 흐름: 주가가 단기간에 급등했다가 떨어지는 현상, 혹은 장기적인 상승 추세 등.
유동성 (거래 편의성): 거래가 잘 안 되는 주식 (매수/매도 차액이 큰 주식) 일수록 예측 수익률이 높게 나왔습니다. (위험이 큰 만큼 보상도 크다는 뜻)

📝 한 줄 요약

이 논문은 **"수만 개의 주식을 한 번에 분석하는 거대한 AI 대신, 작은 그룹별로 전문성을 가진 교사 팀을 꾸려서, '예측의 정확도'와 '불확실성'을 함께 고려하는 새로운 투자 전략을 만들었다"**는 것입니다.

이 방법은 컴퓨터 계산 속도를 빠르게 만들었을 뿐만 아니라, **"내가 이 투자에 얼마나 확신할 수 있는지"**를 알려주어 투자자가 더 현명하게 자산을 배분할 수 있게 도와주었습니다. 마치 안개가 낀 길에서 단순히 "앞으로 가라"고 말하는 대신, **"앞으로 가되, 오른쪽으로 갈 확률이 높고 왼쪽은 위험하니 조심하라"**고 알려주는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

실증 자산 가격 이론 (Empirical Asset Pricing) 의 핵심 과제는 시장 참여자의 정보 집합을 바탕으로 조건부 기대 주식 수익률을 예측하는 것입니다. 그러나 이는 다음과 같은 이유로 매우 어렵습니다.

높은 잡음 (Noise): 금융 시장은 다른 분야 (예: 컴퓨터 비전) 에 비해 신호 대 잡음비 (Signal-to-Noise Ratio) 가 매우 낮습니다.
비선형성과 시변성 (Non-linearity & Time-varying): 예측 변수와 수익률 간의 관계는 경제 조건의 동적 변화로 인해 비선형적이고 시간에 따라 변합니다.
불확실성 정량화의 부재: 기존 머신러닝 연구 (신경망 등) 는 주로 예측 정확도 (Point Estimate) 에만 초점을 맞추어, 예측에 내재된 **인지적 불확실성 (Epistemic Uncertainty)**을 정량화하지 못했습니다. 포트폴리오 선택과 같은 의사결정에는 불확실성 정량이 필수적입니다.
계산적 한계: 전통적인 GPR 은 커널 행렬의 역행렬 계산으로 인해 $O(N^3)$ 의 시간 복잡도를 가지며, 대규모 데이터셋 (수백만 개의 관측치) 에 적용하기 어렵습니다.

2. 방법론 (Methodology)

2.1 가우시안 프로세스 회귀 (GPR) 프레임워크

저자들은 주식 수익률 $r_{i,t+1}$ 을 다음과 같은 가법 오차 모델로 정의합니다.
$r_{i,t+1} = E_t(r_{i,t+1}) + \epsilon_{i,t+1} = f(x_{i,t}) + \epsilon_{i,t+1}$
여기서 $f$ 는 조건부 기대 수익률을 나타내는 함수이며, $x$ 는 주식별 특성과 거시경제 변수입니다.

GPR 적용: 함수 $f$ 를 사전 분포를 가진 가우시안 프로세스로 가정합니다. 이를 통해 예측값뿐만 아니라 **예측 분포 (Predictive Distribution)**를 얻어, 예측의 평균 (기대 수익률) 과 분산 (인지적 불확실성) 을 동시에 추정합니다.
불확실성 분해: 총 오차는 인지적 불확실성 (모델이 학습하지 못한 지식 부족) 과 알레토릭 불확실성 (고유한 위험, $\epsilon$ ) 으로 분해됩니다.

2.2 앙상블 학습 방법 (Ensemble Learning Approach)

대규모 데이터셋에서 GPR 의 계산 병목 현상을 해결하기 위해, 혼합 전문가 (Mixture-of-Experts) 방식의 앙상블 학습을 도입했습니다.

데이터 분할: 전체 학습 데이터를 월별 하위 집합 (Subset) 으로 분할합니다.
병렬 학습: 각 월별 하위 집합에 대해 개별 GPR 모델을 병렬로 학습시킵니다.
혼합 (Mixing): 전체 학습 데이터에 대한 예측 분포를 각 하위 집합의 예측 분포를 가중치 ( $w_j$ $w_{j}$ ) 를 두어 혼합하여 얻습니다.
- 가중치 산정:
  - 균등 가중치: 최근 $K$ 개월의 모델을 균등하게 혼합.
  - MSE 가중치: 검증 기간 (Calibration month) 의 평균 제곱 오차 (MSE) 를 기반으로 가중치를 부여 (오차가 작은 모델에 더 높은 가중치).
온라인 학습: 새로운 데이터가 들어오면 기존 모델을 재학습하지 않고, 새로운 월에 대한 GPR 모델 하나만 추가하여 혼합 분포를 업데이트합니다. 이는 신경망의 재학습 비용 문제를 해결합니다.

2.3 포트폴리오 구성 전략

예측 불확실성을 활용하여 다음과 같은 포트폴리오를 구성합니다.

UW (Uncertainty-Weighted): 예측 공분산 행렬을 사용하여 불확실성을 최소화하는 포트폴리오 (전역 최소 분산 포트폴리오 개념).
PW (Prediction-Weighted): 예측 수익률의 순위와 상대적 강도를 반영한 포트폴리오.
PUW (Prediction-Uncertainty-Weighted): 평균 - 분산 최적화 관점에서, 높은 예측 수익률과 낮은 불확실성을 동시에 추구하는 포트폴리오 (불확실성 회피 성향 투자자용).

3. 주요 기여 (Key Contributions)

커널 방법론과 자산 가격 이론의 연결: 기존 연구 (Gu et al., 2020 등) 가 선형 변환이나 신경망에 집중했다면, 본 논문은 **커널 리지 회귀 (Kernel Ridge Regression)**의 확장인 GPR 을 도입하여 비선형성을 포착하고 강력한 수학적 프레임워크를 제공합니다.
불확실성 정량화의 실용적 적용: GPR 의 베이지안 특성을 활용하여 예측 불확실성을 정량화하고, 이를 포트폴리오 구성에 직접 반영함으로써 통계적, 경제적 성과를 극대화했습니다.
계산 효율성 및 확장성: $O(N^3)$ 의 복잡도를 해결하기 위한 앙상블 학습 방식을 제안하여, 대규모 데이터셋 (1962~2016 년 미국 주식 3 만 개) 에서의 실용적 적용과 온라인 학습을 가능하게 했습니다.
비교 우위 입증: 신경망 기반 모델들을 포함한 기존 벤치마크보다 통계적 정확도 ( $R^2$ ) 와 경제적 성과 (Sharpe Ratio) 에서 우월함을 입증했습니다.

4. 실증 결과 (Results)

데이터: 1962 년 2 월부터 2016 년 12 월까지의 미국 주식 (NYSE, AMEX, NASDAQ) 월간 수익률 및 94 개의 주식별 특성 (모멘텀, 유동성, 가치 등) 사용.
예측 정확도 (Statistical Performance):
- 제안된 E-GPR ( $\gamma$ -exponential kernel) 모델은 전체 테스트 기간에서 **Pooled $R^2$ 가 0.78%**를 기록했습니다.
- 이는 앙상블 선형 회귀 (0.61%), 단일 선형 회귀 (0.37%), 그리고 기존 신경망 모델들 (0.4~0.58%) 보다 우수한 성과입니다.
- **정보 계수 (IC)**는 5.89% 로, 모델이 주식 간 상대적 성과 구분에 탁월함을 보여줍니다.
포트폴리오 성과 (Economic Performance):
- UW 포트폴리오: 예측 불확실성을 최소화하는 포트폴리오는 전통적인 등가중치 (EW) 및 가치가중치 (VW) 포트폴리오보다 훨씬 높은 예측 정확도 ( $R^2_{pool}$ 13.39% vs EW 8.04%, VW 3.85%) 를 보였습니다.
- PUW 포트폴리오: 불확실성 회피 파라미터 ( $\zeta=20$ ) 를 적용한 포트폴리오의 연간화 샤프 비율 (Sharpe Ratio) 은 3.44로, EW(2.44) 와 VW(0.91) 를 크게 상회했습니다. 이는 불확실성 감소가 경제적 이익으로 직결됨을 의미합니다.
- 비선형성의 효과: 비선형 커널 ( $\gamma$ -exponential) 을 사용한 모델이 선형 커널 (Affine) 모델보다 포트폴리오 성과에서 압도적으로 우세했습니다.
특성 분석 (Feature Insights):
- 가장 중요한 변수: 단기 반전 (mom1m), 모멘텀 (mom12m), 유동성 (bid-ask spread, illiquidity) 등 가격 추세가 관련된 변수들이 가장 큰 예측력을 가졌습니다.
- 불확실성과의 관계: 높은 예측 불확실성을 가진 주식들은 유동성 제약 (Arbitrage Frictions) 이 크고 극도로 유동성이 낮은 주식들이었습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 머신러닝을 자산 가격 예측에 적용할 때 **예측 정확도뿐만 아니라 예측 불확실성 (Uncertainty)**을 어떻게 활용하느냐가 핵심임을 강조합니다.

실용적 가치: 제안된 앙상블 GPR 방법은 계산 비용이 적게 들고, 데이터의 비정상성 (Non-stationarity) 을 처리하며, 온라인 학습에 적합합니다.
투자 전략: 불확실성을 고려한 포트폴리오 (PUW, UW) 는 기존 전략보다 위험 조정 후 수익률이 현저히 높아, 불확실성을 회피하는 투자자에게 매우 유리합니다.
학술적 기여: 기존 머신러닝 기반 자산 가격 연구가 신경망에 치중했던 점을 보완하여, 커널 기반 방법론 (GPR) 의 강력한 성능과 해석 가능성을 입증했습니다.

결론적으로, 이 연구는 GPR 기반의 앙상블 학습이 대규모 금융 데이터에서 조건부 기대 수익률을 예측하고, 이를 통해 불확실성을 관리하는 포트폴리오를 구성하는 데 있어 기존 방법론들을 압도하는 유효한 도구임을 실증적으로 증명했습니다.