Regularization in Paired Comparison Models via Pseudo-Games and Phantom… — 쉬운 설명

당신은 친구들의 비디오 게임 실력을 순위 매기려고 한다고 상상해 보세요. 당신에게는 누가 누구를 이겼는지에 대한 목록이 있습니다.

이상적인 세상이라면 모든 사람이 서로 같은 횟수만큼 경기를 치러야 합니다. 하지만 현실에서는 어떤 사람은 경기를 아주 많이 하고, 어떤 사람은 아주 적게 하며, 때로는 정말 뛰어난 선수가 당신이 관찰한 적은 표본 안에서는 특정 상대에게 단 한 번도 패하지 않을 수도 있습니다.

문제점: "완벽한" 점수의 함정
플레이어 A 가 플레이어 B 를 다섯 번 연속으로 이긴다면, 표준 컴퓨터 계산 방식 (흔히 "최대 우도법"이라 불리는 방식) 은 플레이어 A 가 플레이어 B 보다 무한히 더 뛰어나다고 결론 내릴 것입니다. 이는 플레이어 A 가 영원히 100% 의 확률로 승리할 것이라고 계산하는 것입니다.

문제점: 이는 다섯 번의 경기 데이터에 대해서는 수학적으로 "옳은" 것이지만, 미래를 예측하기에는 끔찍한 결과입니다. 플레이어 B 가 다음번에는 이길 수도 있다는 것을 우리는 알고 있습니다. 이 수학적 모델은 작은 표본을 절대적인 진리로 취급하기 때문에 무너집니다. 즉, "무한대"의 점수를 만들어내며 상식 밖의 결과를 초래합니다.

해결책: "유령 게임" 추가하기
저자인 마크 글릭만 (Mark Glickman) 은 설명하기 어려운 복잡한 수학적 페널티를 사용하는 대신, 이 문제를 해결할 수 있는 영리한 트릭을 제안합니다. 공식을 바꾸는 대신, 가짜 데이터를 섞는 것입니다. 그는 이를 "의사 관측치를 통한 정규화 (Regularization via Pseudo-Observations)"라고 부릅니다.

이렇게 생각해보세요. 실제 시즌의 결과가 나오기 전에, 모든 플레이어가 '유령' 상대와 혹은 서로 아주 균형 잡힌 방식으로 몇 번의 추가 경기를 치렀다고 가정하는 것입니다.

이 논문은 두 가지 구체적인 방법을 제안합니다.

1. "분수 타이 (Fractional Tie)" 방식 (의사 게임)

모든 실제 시즌이 시작되기 전, 모든 플레이어가 서로 아주 미세한 '무승부' 경기를 치렀다고 상상해 보세요.

작동 방식: 당신의 데이터에 있는 모든 맞대결에 대해 승리 점수를 아주 조금 더하고, 패배 점수를 아주 조금 더 뺍니다.
비유: 이는 컴퓨터에게 "플레이어 A 가 플레이어 B 를 다섯 번 이겼더라도, 두 사람이 점수를 절반씩 나눠 가진 경기도 몇 번 치렀다고 가정해라"라고 말하는 것과 같습니다.
결과: 이는 컴퓨터가 "플레이어 A 가 무한히 더 뛰어나다"라고 말하는 것을 막아줍니다. 점수를 서로 가깝게 끌어당겨 예측을 더 현실적으로 만듭니다. 이는 데이터에 약간의 "의구심"을 더해 극단적인 값을 완화하는 것과 같습니다.

2. "유령 플레이어" 방식 (팬텀 플레이어)

리그에 신비롭고 보이지 않는 플레이어 (이름을 "Mr. Zero"라고 합시다) 가 있다고 상상해 보세요. 그는 정확히 평균적인 수준이며, 지치지도 않고 운이 좋지도 않으며, 그의 실력은 고정되어 있습니다.

작동 방식: 모든 실제 플레이어가 "Mr. Zero"를 상대로 여러 경기를 치렀다고 가정합니다. 모든 플레이어가 Mr. Zero 를 상대로 절반은 이기고 절반은 졌다고 컴퓨터에게 알려줍니다.
비유: 이는 배를 닻으로 고정하는 것과 같습니다. 배 (플레이어의 점수) 가 너무 멀리 떠내려가려 하면 (점수가 너무 높아지거나 낮아지면), 닻 (Mr. Zero) 이 그것을 중앙으로 다시 끌어당깁니다.
결과: 이는 모두의 점수를 안정적으로 유지해 줍니다. 어떤 플레이어가 약한 상대들을 상대로 10 연승을 거두더라도, 그들이 "평균적인 유령 플레이어"를 상대로는 절반의 경기에서 졌다는 사실 덕분에 그들의 점수가 무한대로 치솟는 것을 방지합니다.

왜 이것이 멋진가

이 논문은 이 두 가지 "가짜 데이터" 트릭이 매우 인기 있고 복잡한 수학 기법인 "릿지 정규화 (Ridge Regularization)"(보통 무서워 보이는 페널티 공식이 포함됨) 와 동일한 역할을 한다는 것을 보여줍니다.

이점: "우리는 수학에 0.5 의 페널티를 적용했다"라고 말하는 대신, "우리는 평균적인 상대와 40 번의 가짜 경기를 추가했다"라고 말할 수 있습니다.
번역: 이는 수학을 일반인들 (스포츠 분석가나 비즈니스 매니저 등) 이 이해하기 훨씬 쉽게 만들어 줍니다. 그들은 단순한 질문을 통해 시스템을 조정할 수 있습니다. "가짜 경기를 몇 번 추가해야 하는가?" 또는 "평균적인 플레이어를 얼마나 신뢰해야 하는가?"와 같은 질문 말이죠.

야구 사례

저자는 이 방법을 2025 년 메이저리그 베이스볼 (MLB) 시즌에 테스트했습니다.

해결책이 없을 때: 경기 일정이 불균형했기 때문에, 컴퓨터는 정규 추정법을 사용했을 때 최상위 팀과 최하위 팀의 실력 차이를 지나치게 과장하여 추정했습니다. 즉, 최고의 팀은 실제보다 훨씬 더 뛰어나고, 최하위 팀은 실제보다 훨씬 더 부진한 것처럼 보였습니다. (참고: 모든 팀이 승패를 모두 기록했기 때문에 점수가 '무한대'가 된 것은 아니지만, 추정된 격차는 현실보다 훨씬 극단적이었습니다.)
해결책이 있을 때: 컴퓨터는 팀들에게 더 합리적인 점수를 부여했습니다. 최고의 팀이 뛰어나고 최악의 팀이 형편없다는 것은 여전히 인지하면서도, 그 격차를 과장하지 않았습니다. "유령 플레이어" 방식은 매우 효과적이어서, 복잡한 "릿지" 수학 방법과 거의 동일한 결과를 만들어냈으면서도 훨씬 설명하기 쉬웠습니다.

요약

이 논문은 승패를 바탕으로 순위를 매길 때, 모든 사람이 몇 번의 추가적인 균형 잡힌 경기를 치렀다고 가정함으로써 터무니없는 무한대 점수를 피할 수 있다고 주장합니다.

방법 A: 모든 사람이 서로와 아주 미세한 무승부를 기록했다고 가정합니다.
방법 B: 모든 플레이어가 "평균적인" 유령을 상대로 여러 경기를 치렀다고 가정합니다.

두 방법 모두 수학을 단순하게 유지하고, 예측을 현실적으로 만들며, 결과를 누구나 이해하기 쉽게 만들어 줍니다.

기술 요약: 의사 게임(Pseudo-Games)과 유령 선수(Phantom Players)를 통한 쌍체 비교 모델의 정규화

문제 정의
Bradley-Terry 및 Thurstone-Mosteller 모델과 같은 쌍체 비교 모델은 이진 결과로부터 잠재적 능력이나 선호도를 추정하는 표준적인 도구이다. 그러나 이러한 모델에서 일반적인 최대 가능도 추정(MLE)은 비교 그래프가 끊겨 있거나 거의 분리되어 있는 경우 상당한 불안정성에 직면한다. 이러한 상황은 불완전한 일정을 가진 스포츠, 희소한 선호도 조사, 또는 신규 진입자가 있는 온라인 순위 시스템 등에서 흔히 발생하며, 이 경우 가능도가 경계값에서만 최대화되어 무한한 능력 추정치(예: $+\infty$ 및 $-\infty$ )를 초래할 수 있다. Ridge 정규화는 매개변수를 공통 중심점으로 수축시킴으로써 이를 해결하지만, 실무자들에게 매력적인 직관적 가능도 해석을 모호하게 만든다. 또한, Ridge 페널티는 위치 비식별성(location nonidentifiability)을 해결하기 위해 명시적인 선형 제약을 필요로 한다.

방법론
본 논문은 친숙한 가능도 형태를 유지하면서 유한하고 수축된 추정치를 산출하는 두 가지 데이터 증강 관점의 정규화를 제안한다. 두 방법 모두 표준 이항 회귀 소프트웨어(예: R의 glm)를 통해 구현 가능하다.

의사 게임(Pseudo-Game) 정규화:
이 방식은 관측된 데이터에 분수 형태의 "의사 게임"을 추가한다. 모든 순서가 없는 경쟁자 쌍 $(i, j)$ 에 대해, 이 방법은 양쪽 선수 모두에게 $\delta$ 만큼의 분수 승리와 $\delta$ 만큼의 분수 패를 추가한다.

메커니즘: 증강된 로그 가능도는 $\sum \log\{p_{ij}(1-p_{ij})\}$ 에 비례하는 페널티 항을 포함한다. 이 항은 $p_{ij} = 1/2$ 일 때(능력이 동일할 때) 최대화되어, 능력 차이를 0으로 수축시킨다.
특성: 이는 쌍체 능력 차이에 작용한다. 이 방법은 위치 비식별성을 해결하지는 않으며, 따라서 선형 제약(예: $\sum \theta_j = 0$ )이 여전히 필요하다.
Ridge와의 연결: Bradley-Terry 로짓 링크 하에서 0 근처의 테일러 전개를 통해 보면, 이 페널티는 국소적으로 계수가 $\lambda \approx \delta J / 4$ 인 Ridge 페널티처럼 동작한다.

유령 선수(Phantom-Player) 정규화:
이 방식은 고정된 알려진 강도 $\theta_0 = 0$ 을 가진 인공적인 "유령" 경쟁자(인덱스 0)를 도입한다. 각 실제 경쟁자는 유령 선수에 대해 가중치가 부여된 하나의 의사 승리와 하나의 의사 패를 할당받으며, 그 가중치는 $\rho$ 이다.

메커니즘: 증강된 로그 가능도는 $\rho \sum [\log F(\theta_j) + \log\{1 - F(\theta_j)\}]$ 항을 추가한다. 이 페널티는 $\theta_j = 0$ 에서 최대화되며, 개별 능력을 유령 선수의 고정된 강도로 수축시킨다.
특성: 이는 단순히 차이에 작용하는 것이 아니라 $\theta_j$ 개별 매개변수에 직접 작용한다. 결정적으로, 이 방식은 명시적인 합-제로(sum-to-zero) 제약 없이도 위치 비식별성을 자연스럽게 해결하며, 유령 선수가 척도를 고정하는 역할을 한다.
Ridge와의 연결: Bradley-Terry 모델의 경우, 이는 국소적으로 $\lambda \approx \rho / 4$ 인 Ridge 정규화와 동등하다. 그러나 이차(quadratic) Ridge 페널티와 달리, 유령 선수 페널티는 큰 $|\theta_j|$ 에 대해 대략 선형적인 꼬리(tails)를 갖는다.

튜닝 및 추론
튜닝 매개변수인 $\delta$ 와 $\rho$ 는 전문가의 견해 추출(elicitation) 또는 교차 검증을 통해 선택할 수 있다.

견해 추출: $\delta$ 는 분석가가 단 한 번의 승리(패배 없음)를 관찰했을 때, 미래의 승리 확률 $q$ 를 어떻게 할당하는지에 따라 교정될 수 있다: $\delta = (1-q)/(2q-1)$ . $\rho$ 는 참조 상대에 대한 가중 의사 승리/패배의 수로 해석된다.
교차 검증: $K$ -겹 교차 검증은 보류된(held-out) 로그 가능도를 최대화한다. 논문은 최종 적합의 표준 오차가 선택된 튜닝 매개변수에 조건부로 취급되어야 함을 언급하며, 적절한 불확실성 정량화를 위해 전체 절차를 부트스트래핑할 것을 권장한다.
베이지안 해석: 본 논문은 유령 선수 정규화가 밀도가 $[F(\theta_j)(1-F(\theta_j))]^\rho$ 에 비례하는 독립적 수축 사전 분포 하에서의 최대 사후 확률(MAP) 추정치에 해당함을 언급한다.

결과: 2025년 메이저 리그 베이스볼(MLB) 적용
이 방법들은 2025년 MLB 정규 시즌(30개 팀, 2,430게임)에 적용되었다. 데이터 그래프는 연결되어 있었으나(일반 MLE 가능), 일정이 불균형하여 극단적인 추정치가 발생할 가능성이 있었다.

비교: 저자들은 일반 Bradley-Terry, Ridge 정규화, 의사 게임, 그리고 유령 선수 모델을 비교하였다.
결과:
- 일반 추정치는 가장 넓은 편차를 보였다 (예: 콜로라도 로키스 $-0.979$).
- 정규화된 방법들은 이러한 극단치를 상당히 수축시켰다 (예: 로키스의 추정치는 $-0.580 $에서$ -0.643$ 사이였다).
- 유령 선수 모델은 Ridge 정규화된 강도 추정치와 매우 유사했다. 최하위와 최상위 간의 격차 감소율은 약 3분의 1에서 5분의 2 정도였다.
- 유령 선수 방법은 직관적인 증강 데이터 표현을 유지하면서도 Ridge 정규화된 강도 추정치를 성공적으로 재현하였다.

주요 기여 및 의의
본 논문의 주요 기여는 단순한 데이터 증강 구성(의사 게임 및 유령 선수)이 쌍체 비교 모델을 위한 해석 가능한 정규화 페널티를 제공한다는 점을 입증한 것이다.

해석 가능성: 추상적인 Ridge 페널티와 달리, 이 방법들은 실무자들이 정규화를 "분수 형태의 게임" 또는 "참조 상대와의 비교"라는 관점에서 논의할 수 있게 한다.
구현: 이 방법들은 표준 일반화 선형 모델(GLM) 소프트웨어를 활용하므로, 별도의 커스텀 최적화 코드 없이도 응용 분석가들이 쉽게 접근할 수 있다.
식별성: 유령 선수 구성은 데이터 증강을 통해 위치 비식별성을 자연스럽게 해결함으로써, 명시적인 선형 제약의 필요성을 제거한다는 독특한 장점을 제공한다.
가교 역할: 이 연구는 페널티 최적화와 가능도 기반 모델링 사이의 가교 역할을 하며, 정규화를 수학적 페널티가 아닌, 세심하게 통제된 정보의 추가로 프레임화한다.

논문은 이러한 방법들에 한계(예: 매우 희소한 데이터에서 교차 검증의 불안정성 가능성)가 있을 수 있지만, 표준적인 Ridge 정규화에 대한 강력하고 직관적인 대안을 제공한다고 결론짓는다. 특히 비교 그래프의 구조가 특정한 유형의 불안정성을 시사할 때 유용하다.

Regularization in Paired Comparison Models via Pseudo-Games and Phantom Players

1. "분수 타이 (Fractional Tie)" 방식 (의사 게임)

2. "유령 플레이어" 방식 (팬텀 플레이어)

왜 이것이 멋진가

야구 사례

요약

유사한 논문