로봇에게 과거 데이터를 바탕으로 날씨를 예측하도록 가르친다고 상상해 보세요. 일반적으로 통계학자들은 황금률을 따릅니다: "로봇을 너무 똑똑하게 만들지 마세요." 로봇에게 너무 많은 규칙 (모수) 을 암기하도록 하면, 로봇은 단순히 지난주 특정 날씨를 암기해 버리고 (과적합), 다음 주 날씨를 예측하는 데 실패합니다. 우리는 '너무 단순하지도, 너무 복잡하지도 않은' '골디락스' 모델을 원합니다.

하지만 최근 과학자들은 '이중 하강 (Double Descent)'이라는 기이한 현상을 발견했습니다. 이는 롤러코스터와 같아서, 규칙을 더 추가할수록 타기가 무서워지고 (오류가 커지고), 하지만 규칙을 더욱 계속 추가하면 타기가 갑자기 다시 매끄러워지며 로봇이 놀라울 정도로 정확해집니다. 이는 로봇이 혼란 속에서 숨겨진 단순한 패턴을 찾아낼 수 있을 정도로 '과도하게 강력 (과모수화)'해졌을 때 발생합니다.

문제: '추악한' 데이터
실제 세계의 데이터는 지저분합니다. 때로는 센서가 고장 나거나 오타가 발생하여 완전히 잘못된 데이터 포인트인 '이상치'를 만들어냅니다 (예: 폭설 한복판에 기온이 100°F라고 말하는 것).

전통적인 강건 통계학: 전통적으로 전문가들은 "데이터가 지저분하면 나쁜 점을 무시하기 위해 특별하고 신중한 도구 (강건 추정량) 를 사용해야 한다"고 말합니다. 그들은 지저분한 데이터에 표준적이고 단순한 도구를 사용하면 로봇이 미쳐버릴 것이라고 믿습니다.
반전: 이 논문은 질문합니다: 지저분한 데이터에 '과도하게 강력한' 로봇 (이중 하강을 보이는 로봇) 을 사용하면 어떨까요? 여전히 작동할까요, 아니면 지저분함이 그 마법을 망칠까요?

실험
저자 티노 베르너는 대규모 시뮬레이션을 수행했습니다. 그는 '깨끗한' 세계를 만든 다음, 두 가지 유형의 지저분함으로 학습 데이터를 고의적으로 '오염'시켰습니다:

Y-오염: 답변을 망치는 것 (예: 실제 기온이 50°F였을 때 로봇에게 100°F였다고 말하기).
X-오염: 질문을 망치는 것 (예: 실제 풍속이 5mph 였을 때 로봇에게 500mph 였다고 말하기).

그런 다음 그는 모든 점 (나쁜 점 포함) 을 완벽하게 맞추는 최소제곱 보간법을 사용하는 '과도하게 강력한' 로봇과 나쁜 데이터를 무시하도록 설계된 여러 '신중한' 로봇 (Huber 손실, Tukey 손실, SLTS, RRBoost 사용) 을 비교했습니다.

놀라운 결과

'과도하게 강력한' 로봇의 승리:
가장 충격적인 발견은 모든 점 (쓰레기 포함) 을 맹목적으로 맞추는 최소제곱 보간기가 많은 시나리오에서 실제로 가장 잘 수행했다는 것입니다.
- 유사점: 시험을 보는 학생을 상상해 보세요. '신중한' 학생들은 함정 문제를 무시하려고 노력합니다. '과도하게 강력한' 학생은 함정 문제까지 모든 문제를 답하려고 합니다. 놀랍게도, 학생이 전체 그림을 볼 수 있을 만큼 충분한 두뇌 능력 (모수) 을 가지고 있다면, 그들은 어떻게든 함정 문제를 '평균화'하여 최종 시험에서 완벽한 점수를 받을 수 있습니다.
- 논문은 모델 복잡도가 특정 임계값 (보간 영역) 을 넘으면 오류율이 다시 감소하여 모든 '신중한' 강건 방법보다 우세하다는 것을 발견했습니다.
'신중한' 로봇의 고전:
강건하도록 설계된 방법들 (Huber, Tukey, SLTS, RRBoost) 은 종종 이러한 '이중 하강' 마법을 보여주지 못했습니다. 어떤 경우에는 모델이 거대해져도 높은 오류에 갇혀 회복하지 못했습니다. 그들은 데이터의 숨겨진 단순함을 찾기보다 '안전'하려 애쓰느라 너무 바빴습니다.
'깨끗한 부분집합' 트릭:
저자는 또한 하이브리드 접근 방식을 시도했습니다: 먼저 '신중한' 로봇으로 '깨끗한' 데이터 포인트를 찾은 다음, '과도하게 강력한' 로봇을 오직 그 깨끗한 점들에만 사용하는 것입니다.
- 결과: 이는 괜찮게 작동했지만, 지저분한 데이터셋 전체를 그냥 먹어치운 '과도하게 강력한' 로봇을 이기지는 못했습니다. 지저분한 데이터는 사람들이 생각했던 것보다 과도하게 강력한 모델에 그렇게 큰 피해를 주지 않는 것으로 보였습니다.
'이중 하강' 형태:
- 깨끗한 데이터: 오류가 감소했다가 증가 (과적합) 한 후 다시 감소 (이중 하강) 합니다.
- 지저분한 Y-데이터 (나쁜 답변): 오류가 증가했다가 모델이 거대해질 때까지 높게 유지된 후 감소합니다. 피크 이후에는 '일방향 하강'이지만, 결국 매우 좋아집니다.
- 지저분한 X-데이터 (나쁜 질문): 모델은 이를 깨끗한 데이터와 거의 비슷하게 처리합니다.

결론
이 논문은 "지저분한 데이터는 신중하고 강건한 도구가 필요하다"는 오래된 관념에 도전합니다. 매우 크고 과도하게 강력한 모델이 있다면, 데이터를 정제하거나 복잡한 강건 알고리즘을 사용할 필요가 없을 수 있음을 시사합니다. 모델의 sheer 크기 자체가 노이즈를 통과하여 '보간'하고 진실을 찾아내도록 허용하며, 종종 강건하도록 특별히 설계된 방법들보다 더 나은 성과를 냅니다.

이 논문이 말하지 않는 것

테스트 없이 모든 유형의 데이터 (의료 이미지나 주식 시장 등) 에 대해 이것이 작동한다고 주장하지는 않습니다.
강건 통계학을 영원히 사용하지 말아야 한다고 말하지는 않습니다. 단지 이 특정 선형 회귀 시뮬레이션에서 단순하고 과도하게 강력한 방법이 이겼을 뿐이라고 말합니다.
이것이 수학적으로 왜 발생하는지 설명하는 새로운 이론을 제시하지는 않습니다. 컴퓨터 시뮬레이션을 통해 그것이 발생함을 보여줄 뿐입니다.

간단히 말해: 때로는 지저분한 방을 처리하는 가장 좋은 방법은 쓰레기 하나하나를 신중하게 주워 치우는 것이 아니라, 모든 것을 빨아들이고 어딘가 예상보다 더 깨끗한 바닥을 남기는 거대한 진공청소기를 가져오는 것입니다.

기술 요약: 오염된 데이터에 대한 최소제곱 보간을 위한 더블 디센드

문제 제기

고전적 통계 이론은 모델 복잡도가 보간 지점 (파라미터 수 $p$ 가 샘플 수 $n$ 을 초과하는 지점) 을 넘어서 증가하면 과적합이 발생하고 일반화 성능이 저하된다고 주장합니다. 그러나 최근의 실증적 및 이론적 연구는 과파라미터화 영역 ( $p > n$ ) 에서 일반화 오차가 다시 감소하는 "더블 디센드 (double descent)" 현상을 확인했습니다. 이는 깨끗한 환경에서 광범위하게 연구되었지만, 오염된 데이터상에서 과파라미터화 모델의 행동은 여전히 잘 이해되지 않고 있습니다.

강건 통계학은 전통적으로 이상치로 인해 이상적인 분포에서 벗어난 관측치 (오염된 데이터) 를 처리하기 위해 유계 영향 함수를 가진 추정량 (예: Huber 손실, Tukey 손실, 최소 절단 제곱법) 을 사용합니다. 이러한 방법들은 일반적으로 강건성을 위해 효율성을 희생합니다. 본 연구에서 다루는 핵심 질문은 오염된 훈련 데이터를 가진 선형 회귀에서 더블 디센드 현상이 유지되는지, 그리고 구체적으로 매우 비강건한 최소제곱 (LS) 보간기가 과파라미터화 영역에서 확립된 강건한 대안들보다 우수한 성능을 발휘할 수 있는지 여부입니다.

방법론

본 연구는 오염된 데이터로 훈련되고 깨끗한 테스트 데이터로 평가된 다양한 추정량들의 일반화 성능을 비교하는 순수 실증적 시뮬레이션 분석입니다.

1. 데이터 생성

설정: $n$ 개의 샘플과 $p$ 개의 예측 변수를 가진 선형 회귀 $Y = X\beta + \epsilon$ .
진짜 신호: 가우스 또는 균일 성분을 가진 희소 계수 벡터 $\beta$ (진짜 차원 $s=20$ ).
예측 변수 ( $X$ ): 독립적인 특징 ( $\Sigma = I$ ) 이거나 스파이크 공분산 구조 ( $\Sigma = I + \rho \mathbf{1}\mathbf{1}^T$ ) 를 가진 다변량 정규 분포에서 생성됨.
오염: 훈련 세트에만 두 가지 유형의 오염이 주입됨:
- Y-오염: 반응 벡터에 대한 가산성 이상치.
- X-오염: 예측 변수 행렬의 선택된 행 내 특정 셀에 대한 가산성 이상치.
파라미터: 실험에서 $p$ (5 에서 5000 까지), 샘플 크기 $n$ (50 및 200), 신호 대 잡음비 (SNR), 오염 반경 $r$ (오염된 점의 비율), 그리고 오염 크기 ( $c_{out}$ ) 를 변형함.

2. 비교 알고리즘

본 연구는 다음 추정량들을 평가했습니다:

최소 $l_2$ -노름 보간기: $p > n$ 인 경우의 표준 LS 해로, Moore-Penrose 의사역행렬 ( $X^+Y$ ) 을 통해 계산됨.
강건 손실 보간기:
- Huber 손실: 경사 하강법을 통해 최적화됨 (R 패키지 MTE).
- Tukey 손실: 경사 하강법을 통해 최적화됨 (커스텀 구현).
강건 부분집합 선택 + 보간:
- SLTS 기반: 희소 최소 절단 제곱법 (SLTS) 을 사용하여 데이터의 "깨끗한" 부분집합을 식별한 후, 해당 부분집합 만을 사용하여 최소 $l_2$ -노름 보간기를 훈련함.
- RRBoost 기반: 강건 부스팅 (RRBoost) 을 사용하여 깨끗한 부분집합을 식별한 후, 해당 부분집합에서 최소 $l_2$ -노름 보간을 수행함.
기반 강건 추정량: 후속 보간 단계 없이 표준 SLTS 및 RRBoost 모델.

3. 평가 지표

성능은 다음을 사용하여 평가되었습니다:

평균 테스트 평균 제곱 오차 (MSE).
평균 훈련 평균 제곱 오차.
추정된 계수와 진짜 계수 간의 $l_1$ -노름 차이 ( $||\hat{\beta} - \beta||_1$ ).
수렴에 필요한 반복 횟수 (반복 알고리즘의 경우).

주요 결과

1. 오염된 환경에서의 더블 디센드

최소제곱 보간기: 최소 $l_2$ $l_{2}$ -노름 보간기는 SNR 이 충분히 높을 경우 (예: $\ge 2$ $\geq 2$ ), 오염된 훈련 데이터에서도 명확한 더블 디센드 현상을 보입니다.
- Y-오염: 테스트 MSE 는 $p \approx n$ (또는 그 약간 초과) 까지 증가한 후 엄격하게 감소합니다. 큰 $p$ 의 경우, 오염된 데이터에서 훈련된 LS 보간기의 테스트 MSE 는 깨끗한 데이터에서 훈련된 LS 보간기의 성능에 근접할 수 있으며, 종종 강건한 대안들을 능가합니다.
- X-오염: LS 보간기는 놀라울 정도로 강건합니다. 더블 디센드 곡선은 깨끗한 데이터 시나리오와 매우 유사합니다.
강건 대안들:
- Huber 손실: 깨끗한 데이터와 X-오염된 데이터에서는 더블 디센드를 보이지만, 과파라미터화 영역에서, 특히 높은 Y-오염 하에서는 LS 만큼 효과적으로 감소하지 못하는 경우가 많습니다.
- Tukey 손실: 일반적으로 더블 디센드를 보이지 않습니다. 훈련 오차가 사라지지 않으며, 테스트 MSE 는 종종 높거나 일정하게 유지됩니다.
- SLTS/RRBoost (표준): 더블 디센드를 보이지 않으며, $p$ 가 증가함에 따라 성능이 평평하거나 저하되는 경우가 많습니다.
- SLTS/RRBoost + 보간: 이러한 방법들이 깨끗한 부분집합을 식별하더라도, 이러한 부분집합에 대한 후속 보간은 전체 데이터 LS 보간기에서 관찰된 더블 디센드 혜택을 일관되게 제공하지 못하며, 특히 높은 오염 하에서 그렇습니다.

2. 공분산 및 중심화의 영향

더블 디센드 현상은 공분산 구조 (독립 대 스파이크) 에 크게 영향을 받지 않습니다.
그러나 중심화되지 않은 예측 변수 ( $\mu = 5$ ) 는 Huber 기반 보간의 성능을 저하시키는 반면, LS 보간기는 안정적으로 유지됩니다.

3. 훈련 오차 역학

LS 보간기의 경우, $p > n$ 이 되면 훈련 오차가 즉시 사라집니다.
Huber 손실의 경우, 훈련 오차는 $n$ 보다 높은 $p$ 에서 사라지며, 테스트 오차의 "두 번째 하강"은 훈련 오차의 소실과 대략 일치합니다.
Tukey 손실의 훈련 오차는 그 재하강 특성으로 인해 거의 사라지지 않습니다.

4. 반복 횟수

Huber 및 Tukey 손실에 대한 반복 횟수는 종종 $p=n$ 근처에서 정점을 찍고 매우 큰 $p$ (Y-오염, 중심화 사례) 에서는 감소합니다. 그러나 이 반복 횟수는 관찰된 일반화 오차 경향과 직접적으로 상관관계가 없습니다.

중요성 및 주장

본 논문은 최소 $l_2$ -노름 보간기의 놀라운 강건성을 주장합니다. 오염된 데이터에서 비강건 추정량이 실패한다는 고전적 직관과 달리, 본 연구는 과파라미터화 영역 ( $p \gg n$ ) 에서 LS 보간기가 강건한 대안들 (Huber, Tukey, SLTS, RRBoost) 과 그들의 하이브리드 변형들보다 우수한 일반화 성능을 달성한다는 사실을 발견했습니다.

주요 시사점은 다음과 같습니다:

더블 디센드의 지속: 더블 디센드 현상은 오염된 데이터를 가진 선형 회귀에서, 구체적으로 LS 보간기에 대해 관찰 가능합니다.
강건 방법보다 우수한 LS: 많은 오염된 시나리오에서 "비강건"인 LS 보간기는 명시적으로 강건하도록 설계된 방법들보다 더 잘 일반화됩니다.
계산 효율성: LS 보간기는 폐형 해 (또는 효율적인 선형 대수 구현) 를 가지므로, Huber 또는 Tukey 손실 최소화 (반복 최적화 필요) 나 부분집합 선택이 필요한 강건 방법들에 비해 상당한 계산적 이점을 제공합니다. 특히 $p \gg n$ 일 때 그렇습니다.

저자들은 오염된 데이터에 대한 더블 디센드의 이론적 보장은 현재 부재하지만, 실증적 증거는 과파라미터화 LS 보간이 오염된 데이터에 대한 실행 가능하고 잠재적으로 우월한 전략임을 시사한다고 결론지었습니다. 이는 고차원 환경에서 전통적인 강건 추정량의 필요성에 도전합니다. 향후 연구는 이러한 관찰에 대한 이론적 증명을 제공하는 것이 제안됩니다.

Double descent for least-squares interpolation on contaminated data: A simulation study