Regularization in Paired Comparison Models via… — Explicación divulgativa

Imagina que estás intentando clasificar a un grupo de amigos para determinar quién es el mejor en un videojuego. Tienes una lista de quién venció a quién.

En un mundo perfecto, todos jugarían contra todos un número igual de veces. Pero en la realidad, algunos juegan mucho, otros juegan poco, y a veces, un jugador realmente bueno podría no perder nunca contra un oponente específico en la pequeña muestra de partidas que has observado.

El Problema: La trampa de la puntuación "perfecta"
Si el Jugador A vence al Jugador B cinco veces seguidas, un cálculo computacional estándar (llamado "máxima verosimilitud") concluirá que el Jugador A es infinitamente mejor que el Jugador B. Calcula que el Jugador A tiene una probabilidad del 100% de ganar para siempre.

El Problema: Esto es matemáticamente "correcto" para esas cinco partidas, pero es una predicción terrible para el futuro. Sabemos que el Jugador B podría ganar la próxima vez. Las matemáticas fallan porque tratan una muestra pequeña como una verdad absoluta, lo que genera puntuaciones "infinitas" que no tienen sentido.

La Solución: Añadir juegos "fantasma"
El autor, Mark Glickman, sugiere un truco ingenioso para solucionar esto sin usar complejas penalizaciones matemáticas que son difíciles de explicar. En lugar de cambiar la fórmula, sugiere añadir datos falsos a la mezcla. A esto lo llama "Regularización mediante Pseudo-Observaciones".

Piénsalo de esta manera: Antes de que siquiera mires los resultados reales de los juegos, le dices a la computadora: "Imaginemos que todos jugaron algunos juegos extra contra un oponente 'Fantasma', o entre ellos de una manera muy equilibrada".

El artículo propone dos formas específicas de hacer esto:

1. El método del "Empate Fraccionario" (Pseudo-juegos)

Imagina que, antes de que comience la temporada real, cada par de jugadores jugó una diminuta e invisible partida donde empataron.

Cómo funciona: Añades un poco de "crédito" por una victoria y un poco de "crédito" por una derrota a cada enfrentamiento en tus datos.
La Metáfora: Es como decirle a la computadora: "Aunque el Jugador A venció al Jugador B cinco veces, finjamos que también jugaron algunas partidas donde dividieron la diferencia".
El Resultado: Esto evita que la computadora diga "El Jugador A es infinitamente mejor". Acerca las puntuaciones entre sí, haciendo que la predicción sea más realista. Es como añadir un poco de "duda" a los datos para suavizar los extremos.

2. El método del "Jugador Fantasma" (Jugadores Fantasma)

Imagina que hay un jugador misterioso e invisible en la liga (llamémoslo "Sr. Cero") que es exactamente promedio. Nunca se cansa, nunca tiene suerte y su nivel de habilidad es fijo en cero.

Cómo funciona: Pretendes que cada jugador real jugó un montón de juegos contra el Sr. Cero. Le dices a la computadora que cada jugador ganó la mitad de las veces y perdió la otra mitad contra el Sr. Cero.
La Metáfora: Es como anclar un bote. Si el bote (la puntuación del jugador) intenta alejarse demasiado (volverse demasiado alta o baja), el ancla (el Sr. Cero) lo tira de vuelta hacia el centro.
El Resultado: Esto mantiene las puntuaciones de todos bajo control. Incluso si un jugador gana 10 partidas seguidas contra oponentes débiles, el hecho de que "perdió" la mitad de sus juegos contra el Jugador Fantasma promedio evita que su puntuación se dispare hacia el infinito.

Por qué esto es genial

El artículo muestra que estos dos trucos de "datos falsos" hacen exactamente el mismo trabajo que una técnica matemática muy popular y compleja llamada "Regularización Ridge" (que usualmente involucra una fórmula de penalización de aspecto aterrador).

El Beneficio: En lugar de decir: "Aplicamos una penalización de 0.5 a la matemática", puedes decir: "Añadimos 40 juegos falsos contra un oponente promedio".
La Traducción: Esto hace que las matemáticas sean mucho más fáciles de entender para personas comunes (como analistas deportivos o gerentes de negocios). Pueden ajustar el sistema haciendo preguntas simples: "¿Cuántos juegos falsos debemos añadir?" o "¿Qué tanto debemos confiar en el jugador promedio?".

El ejemplo del Béisbol

El autor probó esto con la temporada 2025 de las Grandes Ligas de Béisbol (MLB).

Sin el arreglo: Debido a que el calendario fue desequilibrado, las estimaciones de habilidad de los mejores y peores equipos resultaron ser demasiado optimistas y exageradas; la brecha entre ellos parecía mucho más grande de lo que realmente era, aunque las puntuaciones no fueron literalmente infinitas (ya que todos los equipos tuvieron victorias y derrotas).
Con el arreglo: La computadora les dio a los equipos puntuaciones más razonables. Seguía sabiendo que los mejores equipos eran buenos y los peores eran malos, pero no exageraba la brecha. El método del "Jugador Fantasma" funcionó tan bien que produjo resultados casi idénticos al complejo método matemático "Ridge", pero era mucho más fácil de explicar.

Resumen

El artículo argumenta que, cuando se clasifican cosas basadas en victorias y derrotas, puedes evitar puntuaciones locas e infinitas fingiendo que todos jugaron algunos juegos extra y equilibrados.

Método A: Fingir que todos tuvieron un pequeño empate contra todos los demás.
Método B: Fingir que todos jugaron un montón de juegos contra un "fantasma" promedio.

Ambos métodos mantienen las matemáticas simples, las predicciones realistas y los resultados fáciles de explicar a cualquiera que solo quiera saber quién es realmente el mejor.

Resumen Técnico: Regularización en Modelos de Comparación por Pares mediante Pseudo-Juegos y Jugadores Fantasma

Planteamiento del Problema
Los modelos de comparación por pares, como los modelos de Bradley-Terry y Thurstone-Mosteller, son herramientas estándar para estimar capacidades latentes o preferencias a partir de resultados binarios. Sin embargo, la estimación de máxima verosimilitud ordinaria (MLE) en estos modelos enfrenta una inestabilidad significativa cuando el grafo de comparación está desconectado o es casi separado. En tales casos —comunes en deportes con calendarios incompletos, estudios de preferencias dispersos o sistemas de clasificación en línea con nuevos participantes— la verosimilitud puede maximizarse solo en el límite, resultando en estimaciones de capacidad infinitas (por ejemplo, $+\infty$ y $-\infty$ ). Si bien la regularización de tipo ridge aborda esto al contraer los parámetros hacia un centro común, oscurece la interpretación intuitiva de la verosimilitud que hace que estos modelos sean atractivos para los profesionales. Además, las penalizaciones ridge requieren restricciones lineales explícitas para resolver la no identificabilidad de la localización.

Metodología
El artículo propone dos perspectivas de aumentación de datos para la regularización que preservan la forma familiar de la verosimilitud y, al mismo tiempo, producen estimaciones finitas y contraídas. Ambos métodos permiten la implementación mediante software estándar de regresión binomial (por ejemplo, glm en R).

Regularización por Pseudo-Juego:
Este enfoque añade "pseudo-juegos" fraccionarios a los datos observados. Para cada par no ordenado de competidores $(i, j)$ , el método añade $\delta$ victorias fraccionarias y $\delta$ derrotas fraccionarias a ambos jugadores.

Mecanismo: La log-verosimilitud aumentada incluye un término de penalización proporcional a $\sum \log\{p_{ij}(1-p_{ij})\}$ . Este término se maximiza cuando $p_{ij} = 1/2$ (capacidades iguales), lo que contrae las diferencias de capacidad hacia cero.
Propiedades: Actúa sobre las diferencias de capacidad por pares. No resuelve la no identificabilidad de la localización; sigue siendo necesaria una restricción lineal (por ejemplo, $\sum \theta_j = 0$ ).
Conexión con Ridge: Bajo el enlace logit de Bradley-Terry, una expansión de Taylor cerca de cero muestra que esta penalización se comporta localmente como una penalización ridge con coeficiente $\lambda \approx \delta J / 4$ .

Regularización por Jugador Fantasma:
Este enfoque introduce un competidor "fantasma" artificial (indexado como 0) con una fuerza conocida y fija $\theta_0 = 0$ . A cada competidor real se le asigna una pseudo-victoria y una pseudo-derrota ponderada contra este jugador fantasma, con un peso $\rho$ .

Mecanía: La log-verosimilitud aumentada añade un término $\rho \sum [\log F(\theta_j) + \log\{1 - F(\theta_j)\}]$ . Esta penalización se maximiza en $\theta_j = 0$ , contrayendo las capacidades individuales hacia la fuerza fija del jugador fantasma.
Propiedades: Actúa directamente sobre los parámetros individuales $\theta_j$ en lugar de solo sobre las diferencias. Crucialmente, resuelve la no identificabilidad de la localización sin requerir una restricción de suma cero explícita, ya que el jugador fantasma ancla la escala.
Conexión con Ridge: Para el modelo Bradley-Terry, esto es localmente equivalente a la regularización ridge con $\lambda \approx \rho / 4$ . Sin embargo, a diferencia de la penalización cuadrática ridge, la penalización del jugador fantasma tiene colas aproximadamente lineales para valores grandes de $|\theta_j|$ .

Ajuste e Inferencia
Los parámetros de ajuste $\delta$ y $\rho$ pueden seleccionarse mediante la elicitación de expertos o validación cruzada.

Elicitación: $\delta$ puede calibrarse preguntando qué probabilidad $q$ asigna un analista a una victoria futura dada una sola victoria observada (sin derrotas); $\delta = (1-q)/(2q-1)$ . $\rho$ se interpreta como el número de pseudo-victorias/derrotas ponderadas contra un oponente de referencia.
Validación Cruzada: La validación cruzada de $K$ pliegues maximiza la log-verosimilitud de los datos retenidos. El artículo señala que los errores estándar del ajuste final deben tratarse como condicionales al parámetro de ajuste seleccionado; se recomienda el uso de bootstrapping de todo el procedimiento para una cuantificación adecuada de la incertididad.
Interpretación Bayesiana: El artículo señala que la regularización del jugador fantasma corresponde a un estimador de Máxima Verosimilitud a Posteriori (MAP) bajo prior de contracción independientes con densidades proporcionales a $[F(\theta_j)(1-F(\theta_j))]^\rho$ .

Resultados: Aplicación a la MLB 2025
Los métodos se aplicaron a la temporada regular de la MLB 2025 (30 equipos, 2,430 juegos). Aunque el grafo de datos está conectado (permitiendo la MLE ordinaria), el calendario es desbalanceado, creando potenciales estimaciones extremas.

Comparación: Los autores compararon los modelos Bradley-Terry ordinario, ridge-penalizado, de pseudo-juego y de jugador fantasma.
Hallazgos:
- Las estimaciones ordinarias mostraron la mayor dispersión (por ejemplo, Colorado Rockies en $-0.979$).
- Los métodos regularizados contrajeron sustancialmente estos extremos (por ejemplo, las estimaciones de los Rockies variaron de $-0.580 $a$ -0.643$).
- Las estimaciones del jugador fantasma fueron particularmente cercanas a las estimaciones regularizadas por ridge, con una reducción de la dispersión de extremo a extremo de aproximadamente un tercio a dos quintos.
- El método del jugador fantasma reprodujo con éxito las estimaciones de fuerza regularizadas por ridge mientras mantenía una representación intuitiva de aumentación de datos.

Contribuciones Clave y Significado
La contribución principal del artículo es demostrar que las construcciones simples de aumentación de datos (pseudo-juegos y jugadores fantasma) producen penalizaciones de regularización interpretables para los modelos de comparación por pares.

Interpretabilidad: A diferencia de las penalizaciones ridge abstractas, estos métodos permiten a los profesionales discutir la regularización en términos de "juegos fraccionarios" o "comparaciones contra un oponente de referencia".
la implementación: Los métodos aprovechan el software estándar de modelos lineales generalizados (GLM), lo que los hace accesibles para analistas aplicados sin necesidad de código de optimización personalizado.
Identificabilidad: La construcción del jugador fantasma ofrece una ventaja distinta al resolver la no identificabilidad de la localización de forma natural, eliminando la necesidad de restricciones lineales explícitas.
Puente: El trabajo une la optimización penalizada y el modelado basado en verosimilitud, enmarcando la regularización como la adición de información cuidadosamente controlada e interpretable en lugar de simplemente una penalización matemática.

El artículo concluye que, si bien estos métodos tienen limitaciones (por ejemplo, la posible inestabilidad de la validación cruzada en datos altamente dispersos), proporcionan alternativas robustas e intuitivas a la regularización ridge estándar, particularmente cuando la estructura del grafo de comparación sugiere tipos específicos de inestabilidad.

Regularization in Paired Comparison Models via Pseudo-Games and Phantom Players

1. El método del "Empate Fraccionario" (Pseudo-juegos)

2. El método del "Jugador Fantasma" (Jugadores Fantasma)

Por qué esto es genial

El ejemplo del Béisbol

Resumen

Más como este