Robust Testing Of the Allais Paradox By Paired Choices vs. Paired Valuations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 경제학의 유명한 난제인 **'앨리스 역설 (Allais Paradox)'**을 다시 한번 파헤치며, "우리가 실험을 잘못 설계하고 있었을지도 모른다"는 흥미로운 주장을 펼칩니다.

핵심 내용을 요리조리 설명해 드릴게요.

1. 배경: "확률의 배수"라는 함정

먼저, 앨리스 역설의 핵심인 **'공통 비율 효과 (Common Ratio Effect)'**를 이해해야 합니다.

상황 A: 100% 확률로 100 만 원을 받거나, 80% 확률로 150 만 원을 받거나? (대부분은 100 만 원을 선택합니다.)
상황 B: 100 만 원을 80% 확률로 받거나, 150 만 원을 64% (80% 의 80%) 확률로 받거나? (이때는 많은 사람이 150 만 원을 선택합니다.)

이론적으로 (기대효용 이론), 두 상황은 같은 비율로 확률이 줄어든 것이므로 선택이 일관되어야 합니다. 하지만 사람들은 일관되지 않게 선택합니다. 이것이 바로 '역설'입니다.

2. 최근의 논란: "실험 방법이 틀렸다?"

최근에 나온 한 연구 (MNOSS) 는 "아니요, 사람들이 일관되지 않게 선택하는 게 아니라, 우리가 실험을 잘못 측정하고 있는 것"이라고 주장했습니다.

기존 방법 (선택 테스트): "A 와 B 중 뭐가 더 좋아요?"라고 물어서 A 를 고르는 비율이 60% 라면, C 와 D 중 C 를 고르는 비율도 60% 여야 한다고 봅니다.
새로운 주장: "사람은 기계가 아니니까 실수 (노이즈) 를 합니다. 그래서 A 를 고르는 비율이 60% 라도, 그건 A 가 정말 더 좋다는 뜻이 아니라, 단순히 우연에 가깝습니다. 대신 **'가치 평가 (Valuation)'**를 하세요. 즉, "이 로또를 현금으로 바꾼다면 얼마를 주겠어요?"라고 물어보라고 합니다.
MNOSS 의 결론: 가치 평가 실험을 해보니, 사람들이 일관되지 않게 행동한다는 증거가 거의 없었다! 그래서 "앨리스 역설은 사실일지 모른다"고 결론 내렸습니다.

3. 이 논문의 반격: "아니요, 가치 평가가 더 문제입니다!"

저자 에체니케와 체렌지그미드는 "MNOSS 가 제안한 가치 평가 (Valuation) 방법이 오히려 더 큰 함정"이라고 반박합니다.

🍎 비유: 사과와 배의 가격 매기기

선택 테스트 (Pair Choice): "사과와 배 중 뭐가 더 좋아요?"라고 묻는 겁니다.
가치 평가 (Valuation): "사과를 사려면 얼마를 줄래? 배는 얼마?"라고 묻는 겁니다.

저자들은 가치 평가는 다음과 같은 문제가 있다고 말합니다:

사람의 위험 회피 성향 (Risk Aversion) 에 따라 결과가 완전히 달라집니다. 사과를 좋아하는 사람이 배를 싫어하는지, 아니면 단순히 가격이 비싸서 싫어하는지 구분하기 어렵습니다. 마치 "사과와 배의 가격 차이"를 재는데, 저울이 사람마다 다르게 흔들리는 것과 같습니다.
결과를 마음대로 조작할 수 있습니다. 수학적으로 증명했듯이, 가치 평가 실험에서는 "어떤 결과가 나오든 다 설명할 수 있다 (Anything goes)"는 결론이 나옵니다. 즉, 실험 결과가 무의미해질 수 있습니다.

🛡️ 새로운 제안: "강한 선택 테스트 (Strong Paired Choice)"

저자들은 기존에 쓰이던 '약한 선택 테스트'도 문제가 있지만, 완전히 버릴 필요는 없다고 말합니다. 대신 **'강한 선택 테스트'**를 제안합니다.

약한 테스트: "A 를 고른 비율이 C 를 고른 비율보다 정확히 높으면 역설이다." (이건 노이즈 때문에 틀릴 수 있음)
강한 테스트: "A 를 고른 비율이 **50% 이상 (대부분)**이고, C 를 고른 비율이 **50% 미만 (소수)**이면 역설이다."

비유:

약한 테스트: "A 를 고른 사람이 51 명, C 를 고른 사람이 50 명이면 A 가 더 좋아?" (아니요, 그냥 우연일 수 있어요.)
강한 테스트: "A 를 고른 사람이 80 명, C 를 고른 사람이 20 명이면 A 가 확실히 더 좋아." (이건 우연이 아니죠!)

이 '강한 테스트'는 다양한 노이즈 모델 (사람의 실수, 편향 등) 을 고려해도 공정하고 편향되지 않는다는 것을 수학적으로 증명했습니다.

4. 결론: 다시 돌아온 진실

저자들은 이 '강한 선택 테스트'를 기존에 쌓아온 수많은 실험 데이터에 적용해 보았습니다.

MNOSS 의 결론: "역설은 없다." (가치 평가 실험 결과)
이 논문의 결론: "역설은 여전히 강력하게 존재한다!" (강한 선택 테스트 결과)

데이터를 다시 분석해보니, 약 40% 이상의 실험에서 사람들이 여전히 일관되지 않은 선택을 하고 있었습니다. 즉, 앨리스 역설은 사라지지 않았고, 우리가 실험 방법을 잘못 고른 것이었습니다.

📝 한 줄 요약

"최근 어떤 연구자들이 "사람들은 일관되게 행동한다, 우리가 실험을 잘못했다"고 주장했지만, 우리는 "아니요, 그 실험 방법 (가치 평가) 이 더 문제였다"고 반박했습니다. 올바른 방법 (강한 선택 테스트) 으로 다시 보니, 사람들은 여전히 예측 불가능하고 흥미롭게 행동하고 있었습니다."

이 논리는 경제학뿐만 아니라, 인간의 의사결정을 연구하는 모든 분야에서 **"어떻게 측정하느냐가 결론을 바꾼다"**는 중요한 교훈을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 문제 (Problem)

배경: 모든스 역설은 기대효용이론 (Expected Utility Theory, EU) 의 독립성 공리를 위반하는 현상으로, 확률적 선택 (Stochastic Choice) 하에서도 관찰됩니다.
논쟁의 핵심:
- 약한 짝지어진 선택 테스트 (Weak Paired Choice Test): $P(A \succ B) = P(C \succ D)$ 인지 확인합니다. MNOSS 는 선택에 무작위성 (Noise) 이 존재할 때, 이 테스트가 EU 를 위반하는 것처럼 잘못 판정할 수 있다고 주장하며 이를 **편향 (Bias)**이라고 부릅니다.
- MNOSS 의 제안: 선택 대신 **평가 (Valuation, 즉 확정동치액 elicitation)**를 측정하는 테스트를 사용해야 한다고 주장합니다. 그들은 평가 테스트를 사용하여 공통 비율 효과에 대한 체계적인 증거가 없다고 결론지었습니다.
저자들의 문제의식: MNOSS 의 결론은 확률적 선택에 대한 특정 모델 (iAREU) 에 의존하며, 평가 테스트 자체의 이론적 결함을 간과하고 있습니다. 저자들은 기존 문헌이 발견한 공통 비율 효과가 실제로 존재하는지, 그리고 어떤 테스트가 가장 견고한지 재검토합니다.

2. 방법론 (Methodology)

저자는 다양한 확률적 선택 모델 하에서 두 가지 테스트의 성질을 이론적으로 분석하고, 기존 실험 데이터에 적용합니다.

A. 확률적 선택 모델 (Stochastic Choice Models)

iAREU (i.i.d. Additive Random Expected Utility): 기대효용 함수에 i.i.d 오차항을 더한 모델. MNOSS 가 편향을 주장하는 데 사용한 모델.
- 한계: 이 모델 하에서는 실제 선호가 EU 형태일 확률이 0 이며, 1 차 확률 우세 (FOSD) 를 위반할 수 있음.
Random Expected Utility (Gul & Pesendorfer, 2006): 효용 함수 자체가 확률변수인 모델.
- 특징: 실현된 모든 효용 함수가 EU 형태를 따름. 독립성 공리의 확률적 버전인 **선형성 (Linearity)**을 만족함.
기타 모델: Fechnerian 모델, Random Prospect Theory, Random Perception 등.

B. 테스트 정의

약한 짝지어진 선택 테스트 (Weak Paired Choice): $P(A \succ B) = P(C \succ D)$ 인지 확인.
강한 짝지어진 선택 테스트 (Strong Paired Choice):
- 정의: $P(A \succ B) \ge 1/2 \iff P(C \succ D) \ge 1/2$ .
- 논리: 선택 확률이 50% 이상이면 $A$ 가 $B$ 보다 선호된다고 간주. 이는 Kahneman & Tversky (1979) 및 Ballinger & Wilcox (1997) 의 정의와 일치.
평가 테스트 (Valuation Tests):
- 평균 테스트 (Mean Test): $E[m_{AB}] = E[m_{CD}]$ .
- 부호 테스트 (Sign Test): $P(m_{AB} > m_{CD}) = 1/2$ .

C. 실증 분석

Blavatskyy et al. [2023] 의 메타분석 (143 개 연구) 과 MNOSS 의 실험 데이터를 재분석.
강한 짝지어진 선택 테스트 기준을 적용하여 CRE 와 역 공통 비율 효과 (Reverse CRE) 의 발생 빈도 측정.
Prospect Theory 하의 시뮬레이션을 통해 각 테스트의 통계적 검정력 (Power) 비교.

3. 주요 기여 및 결과 (Key Contributions & Results)

1. 약한 테스트의 편향에 대한 재해석

iAREU 모델 하의 편향: 약한 테스트가 iAREU 모델 하에서 편향된다는 사실은 맞지만, iAREU 모델 자체가 EU 의 적절한 확률적 표현이 아님을 지적.
Random EU 모델 하의 무편향성: Gul & Pesendorfer 의 Random Expected Utility 모델 (선형성 만족) 하에서는 **약한 짝지어진 선택 테스트가 무편향 (Unbiased)**임을 증명. 즉, 이 모델에서는 $P(A \succ B) = P(C \succ D)$ 가 EU 의 필수 조건임.

2. 강한 짝지어진 선택 테스트의 견고성 (Robustness)

핵심 주장: 강한 짝지어진 선택 테스트는 iAREU, Random EU, Random Prospect Theory 등 다양한 확률적 선택 모델 하에서 무편향임을 증명.
이유: $P(A \succ B) \ge 1/2$ 는 $E[u(A)] \ge E[u(B)]$ 와 동치이며, 이는 확률적 오차의 분포에 관계없이 EU 의 구조를 보존함.
Table 1 요약: 다양한 모델 (Random EU, Fechnerian, Prospect Theory 등) 에서 강한 테스트는 무편향인 반면, 약한 테스트나 평가 테스트는 특정 조건 하에서 편향됨.

3. 평가 테스트 (Valuation Tests) 의 문제점

Proposition 1 ("Anything Goes"): iAREU 모델 하에서 평가 테스트는 위험 회피도 (Risk Aversion) 와 오차 분포에 따라 **어떤 결과든 가능 (Anything goes)**하게 됨.
- 평균 테스트: 참가자가 정확히 위험 중립 (Risk Neutral) 이 아닌 한 체계적으로 편향됨.
- 부호 테스트: 오차항 간의 상관관계에 대한 매우 엄격한 대칭성 가정 (Assumption 3) 을 필요로 함.
결론: 평가 테스트는 MNOSS 가 주장하는 것처럼 더 견고하지 않으며, 오히려 더 많은 가정을 요구함.

4. 실증적 재발견 (Empirical Findings)

Blavatskyy et al. [2023] 데이터 재분석:
- 약한 테스트 기준: CRE 증거가 약함 (MNOSS 의 주장과 유사).
- 강한 테스트 기준: **41.26%**의 연구에서 공통 비율 효과 (CRE) 가 관찰됨. **6.99%**는 역 공통 비율 효과 (RCRE) 가 관찰됨.
- 참가자 수를 가중치로 적용하면, 약 **50%**의 참가자가 CRE 또는 RCRE 를 보임.
MNOSS 데이터 재분석: 강한 테스트를 적용했을 때 CRE 와 RCRE 발생률이 각각 10% 로 나타남.
통계적 검정력 (Power): MNOSS 가 사용한 "회색 영역 (EU 와 일치하는 모든 확률 분포)" 기준은 EU 를 기각할 검정력이 매우 낮음. Prospect Theory 하의 시뮬레이션에서도 약한 테스트는 거의 EU 를 기각하지 못하지만, 강한 테스트는 97% 이상 정확히 기각함.

4. 의의 및 결론 (Significance & Conclusion)

이론적 함의:
- MNOSS 의 결론 (공통 비율 효과는 존재하지 않는다) 은 잘못된 모델 (iAREU) 과 부적절한 테스트 (평가 테스트) 에 기반한 것임.
- 강한 짝지어진 선택 테스트는 확률적 선택의 다양한 모델링 (Noise 구조) 에 관계없이 EU 를 검증하는 가장 견고한 도구임.
실증적 함의:
- 기존 문헌 (Blavatskyy et al.) 과 새로운 분석 모두, 강한 테스트를 적용할 때 공통 비율 효과 (Allais 역설) 가 강력하고 체계적으로 존재함을 재확인함.
- MNOSS 의 결과가 "개별적 이질성"을 반영한다는 점은 맞지만, 이는 EU 가 틀렸다는 증거가 아니라, 강한 테스트를 통해 관찰된 체계적인 편향 (CRE) 이 존재함을 의미함.
일반화 가능성:
- 이 논문의 방법론 (강한 테스트) 은 현재 시간 할인 (Present Bias) 이나 다른 행동 경제학적 역설을 검증하는 데에도 적용 가능함. $U(A) - U(B) \ge 0 \iff U(C) - U(D) \ge 0$ 인 구조라면, $P(A \succ B) \ge 1/2 \iff P(C \succ D) \ge 1/2$ 를 검증하는 것이 표준이 되어야 함.

요약: 이 논문은 "선택 데이터의 무작위성"을 이유로 기존 Allais 역설 연구 결과를 부정하려는 시도를 이론적으로 반박하고, 강한 짝지어진 선택 테스트를 통해 공통 비율 효과가 여전히 강력하게 존재함을 입증함으로써 행동 경제학의 핵심 발견을 재확고히 합니다.