When correcting for regression to the mean is worse than no correction at all

이 논문은 회귀평균효과 (RTM) 를 보정하는 기존 방법들의 한계를 지적하고, 측정 반복성을 기반으로 한 구조적 귀무가설을 통해 원시 기울기를 평가하는 것이 RTM 으로 인한 통계적 추론 오류를 해결하는 가장 강력한 대안임을 주장합니다.

원저자: José F. Fontanari, Mauro Santos

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

📉 핵심 주제: "평균으로의 회귀"란 무엇인가?

상상해 보세요. 여러분이 수험생 A를 만나서 첫 시험을 치르게 했습니다. A 는 운이 매우 나빠서 평소 실력의 절반도 못 내고 10 점을 받았습니다. (실력은 80 점인데, 운이 나빠서 10 점).

다음 날, A 는 다시 시험을 봅니다. 이번에는 운이 조금 좋아져서 60 점을 받았습니다.

  • 연구자의 오해: "와! A 는 10 점에서 60 점으로 점수가 50 점이나 올랐네! 뭔가 특별한 훈련이 효과가 있었구나!"
  • 현실 (평균으로의 회귀): A 는 사실 특별한 훈련을 한 게 아닙니다. 단순히 첫 번째 시험이 너무 운이 나빴을 뿐이고, 두 번째 시험은 그 '나쁜 운'이 사라져서 평균적인 실력 (80 점) 에 더 가까워진 것일 뿐입니다.

이처럼, 극단적으로 나쁜 (또는 좋은) 결과는 다음에는 자연스럽게 평균에 가까워지는 경향이 있습니다. 이를 통계학에서는 '평균으로의 회귀'라고 부릅니다.


🚫 문제: 연구자들이 저지르는 실수

생물학이나 의학 연구에서는 이런 현상을 자주 마주칩니다.

  • "혈압이 아주 높은 환자에게 약을 줬더니 혈압이 떨어졌다!" → 약이 효과가 있는 걸까? 아니면 그냥 '평균으로의 회귀' 때문일까?
  • "몸무게가 아주 많이 나가는 사람이 다이어트를 시작하자 살이 빠졌다!" → 다이어트 효과일까?

연구자들은 보통 **"통계적 보정 (Correction)"**을 해서 이 효과를 제거하려고 합니다. 마치 안경을 써서 흐릿한 세상을 또렷하게 보려는 것처럼요.

하지만 이 논문은 **"그런 보정 방법들은 오히려 더 큰 문제를 만든다"**고 말합니다.


🔍 논문의 주요 발견: "보정"의 함정

논문은 두 가지 유명한 보정 방법을 분석했습니다.

1. 베리 (Berry) 와 켈리 (Kelly) 의 방법 (인기 있는 방법)

  • 비유: "운이 나빴을 거야"라고 추측해서 점수를 다시 계산하는 방법입니다.
  • 문제점: 이 방법은 **가정 (Assumption)**에 너무 의존합니다. 마치 "모든 학생이 똑같은 실력을 가졌을 거야"라고 가정하고 점수를 고치는 것과 같습니다.
  • 결과: 실제로는 약이 효과가 없는데도, 이 방법으로 보정하면 **"약이 효과가 있다"**고 잘못 결론 내리는 경우가 많습니다. (거짓 긍정) 혹은 반대로 진짜 효과가 있는데도 **"효과가 없다"**고 무시해 버리기도 합니다.
  • 결론: 이 방법은 **편향 (Bias)**을 만들어내어 과학적 결론을 왜곡시킵니다.

2. 블롬크비스트 (Blomqvist) 의 방법 (이론적으로 완벽한 방법)

  • 비유: "정확한 측정 오차 (실수) 가 얼마인지 미리 알고 있어야 한다"는 방법입니다.
  • 문제점: 이론적으로는 완벽하지만, 실제 데이터가 부족할 때 (샘플이 작을 때) 결과가 너무 들쑥날쑥합니다.
  • 결과: 마치 손이 떨리는 화가가 그림을 그리는 것과 같습니다. 이론적으로는 정확한 그림을 그리려 하지만, 실제로는 엉망이 되어버립니다. 작은 데이터에서는 이 방법보다 아무것도 안 고친 원본 데이터가 더 나을 수도 있습니다.

💡 해결책: "보정"하지 말고 "비교"하라!

논문은 연구자들에게 다음과 같은 새로운 전략을 제안합니다.

"데이터를 고치려고 애쓰지 말고, '우리가 기대할 수 있는 오차'와 비교해라."

🏃‍♂️ 비유: 달리기 대회

  • 상황: 어떤 선수가 100m 달리기에서 10 초를 뛰었습니다. 다음 날 11 초를 뛰었습니다.
  • 기존 생각: "선수가 피곤했구나!"라고 생각하며 데이터를 고치려 합니다.
  • 논문의 제안:
    1. 이 선수의 **실력 (Repeatability)**이 얼마나 안정적인지 먼저 파악하세요. (예: 평소 10 초를 뛰는데, 측정 오차로 인해 0.5 초 정도는 들쭉날쭉할 수 있다.)
    2. 만약 11 초라는 결과가 측정 오차 범위 (0.5 초) 안에 들어온다면, 그건 그냥 "운이 나빴을 뿐"이고 특별한 변화가 없다고 결론 내립니다.
    3. 만약 11 초가 오차 범위를 훨씬 넘어서는 거라면, 그때 비로소 "진짜 변화가 있다"고 말합니다.

즉, 데이터를 인위적으로 수정하는 대신, "이 결과가 우연히 발생할 확률이 얼마나 높은가?"를 측정 오차 (Repeatability) 를 기준으로 판단하라는 것입니다.


🦎 실제 사례: 도마뱀과 새의 털

논문의 저자들은 실제 연구 사례를 재분석했습니다.

  1. 도마뱀의 열 내성: "열에 강한 도마뱀은 더 이상 강해질 수 없다"는 결론이 나왔는데, 이는 통계적 오차 (평균으로의 회귀) 때문일 뿐, 실제 생물학적 현상이 아닐 가능성이 높았습니다.
  2. 새의 텔로미어 (노화 지표): "처음에 텔로미어가 긴 새가 더 빨리 짧아진다"는 결론도, 측정 오차를 고려하면 통계적으로 유의미하지 않다는 것이 드러났습니다.

이처럼, 보정을 잘못하면 존재하지 않는 생물학적 현상 (가짜 신호) 을 찾아낸다고 착각하게 됩니다.


📝 요약: 우리가 배울 점

  1. 평균으로의 회귀는 자연스러운 현상입니다. 극단적인 값은 다음에 평균에 가까워지기 마련입니다.
  2. 무조건 '보정'하면 안 됩니다. 인기 있는 통계 보정 방법 (Berry 등) 은 오히려 잘못된 결론을 부를 수 있습니다.
  3. 측정 오차 (Repeatability) 가 핵심입니다. 실험이 얼마나 정확한지 (재현성이 높은지) 를 모르면, 어떤 결론도 신뢰할 수 없습니다.
  4. 가장 좋은 방법은? 데이터를 고치려 하지 말고, **"관측된 변화가 측정 오차 범위 안에 있는가?"**를 확인하는 것입니다. 만약 오차 범위 안에 있다면, 그건 그냥 '노이즈 (소음)'일 뿐입니다.

한 줄 요약:

"데이터를 인위적으로 다듬기보다, 그 데이터가 얼마나 '흔들리는'지 (오차) 를 먼저 이해하라. 그래야 가짜 신호와 진짜 신호를 구별할 수 있다."

이 논문의 메시지는 과학적 연구에서 **"완벽한 정답을 찾으려 애쓰기보다, 불확실성을 인정하고 겸손하게 접근하는 것"**이 더 중요하다는 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →