The MCC approaches the geometric mean of precision and recall as true negatives approach infinity

Este artículo demuestra y formaliza que, a medida que el número de verdaderos negativos tiende a infinito, el Coeficiente de Correlación de Matthews (MCC) converge al índice de Fowlkes-Mallows, que es la media geométrica de la precisión y la exhaustividad.

Jon Crall

Publicado 2026-03-19
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un cazador de tesoros en un mundo inmenso y caótico. Tu trabajo es encontrar objetos específicos (los "positivos") entre una montaña de basura y cosas que no te interesan (los "negativos").

Este artículo científico es como un mapa que explica cómo medir qué tan bueno eres en esta tarea cuando el mundo es tan grande que la "basura" es casi infinita.

Aquí tienes la explicación, paso a paso, con analogías sencillas:

1. El Problema: La Caja de Herramientas del Cazador

Para saber si un cazador es bueno, usamos una "tabla de puntuación" (llamada matriz de confusión). Tiene cuatro casillas:

  • Aciertos (TP): Encontraste el tesoro.
  • Falsas Alarmas (FP): Pensaste que era un tesoro, pero era basura.
  • Faltas (FN): Había un tesoro, pero no lo viste.
  • Aciertos Negativos (TN): Viste basura y dijiste correctamente "esto no es un tesoro".

La mayoría de las métricas (como el F1 o el FM) solo miran los tres primeros: aciertos, falsas alarmas y faltas. Ignoran los "Aciertos Negativos" (TN).

Pero existe una métrica muy famosa y respetada llamada MCC (Coeficiente de Correlación de Matthews). Esta es la "reina de las métricas" porque mira las cuatro casillas. Es muy justa, pero tiene un problema: necesita contar los "Aciertos Negativos".

2. El Dilema: El Océano de la Basura

En problemas simples (como clasificar fotos de gatos vs. perros), contar la basura es fácil. Pero en problemas del "mundo real", como detectar objetos en una imagen de satélite o en una calle llena de gente:

  • Hay millones de lugares donde podría haber un objeto.
  • La gran mayoría de esos lugares son "no objetos" (basura).
  • Contar cada pedazo de basura que no es un objeto es como intentar contar cada grano de arena en el desierto. Es imposible; la cantidad es infinita.

Si no puedes contar la basura, no puedes usar la "reina" (MCC). Entonces, ¿qué hacemos? ¿Usamos las métricas que ignoran la basura?

3. La Gran Revelación: El Límite Infinito

Los autores del papel se hicieron una pregunta matemática curiosa:

"¿Qué pasa con la puntuación de la 'reina' (MCC) si la cantidad de basura (TN) crece hasta ser infinita?"

La respuesta es mágica:
A medida que la cantidad de basura se vuelve infinita, la puntuación de la "reina" (MCC) se transforma y se vuelve idéntica a la métrica que ignora la basura (llamada FM o índice de Fowlkes-Mallows).

La Analogía del Agua:
Imagina que el MCC es un vaso de agua con un poco de sal (la basura) y un poco de azúcar (los aciertos).

  • Si tienes poca agua, el sabor de la sal es muy fuerte.
  • Pero si empiezas a añadir agua infinita (basura infinita), el sabor de la sal se diluye hasta desaparecer por completo.
  • Al final, solo queda el sabor del azúcar (los aciertos y las faltas).
  • Conclusión: Cuando la "basura" es infinita, la "reina" (MCC) deja de preocuparse por ella y se convierte en su prima (FM).

4. La Prueba: No es solo una suposición

Los autores no solo dijeron "creemos que pasa esto".

  1. Matemáticas clásicas: Hicieron los cálculos algebraicos (como en una clase de álgebra avanzada) para demostrar que, al dividir por un número infinito, los términos de la basura desaparecen.
  2. La Prueba de la Máquina (Lean): Como las matemáticas pueden tener errores humanos, usaron un "abogado de robots" llamado Lean 4. Es un programa que verifica cada paso lógico de la prueba. Si el programa dice "OK", significa que la prueba es 100% correcta y no tiene fallos.
    • Curiosidad: El autor usó Inteligencias Artificiales (LLMs) para ayudar a escribir este código de prueba, ya que el lenguaje de Lean es muy difícil de aprender para un humano promedio.

5. ¿Por qué importa esto?

Este descubrimiento es importante porque:

  • Valida lo que ya hacemos: En la detección de objetos (como coches autónomos), los ingenieros ya usan métricas que ignoran la basura (como FM o F1) porque contar la basura es imposible. Este papel nos dice: "¡Tranquilos! No están cometiendo un error. Matemáticamente, cuando la basura es infinita, esas métricas son exactamente lo mismo que la métrica perfecta (MCC)."
  • Conecta mundos: Descubrieron que los ecólogos (científicos que estudian plantas y animales) ya sabían esto hace años, pero con nombres diferentes. La IA ayudó a encontrar este "pariente perdido" en la literatura científica.

En resumen

El papel nos dice que cuando el mundo es tan grande que la "negatividad" es infinita, no necesitas preocuparte por contarla. La fórmula más perfecta (MCC) se simplifica automáticamente a la fórmula que ya usamos (FM). Es como si el universo mismo te dijera: "No te preocupes por lo que no puedes ver, solo enfócate en lo que sí encontraste".