Model selection in ADMIXTURE can be inconsistent: proof of the K=2 phenomenon

Este artículo demuestra teóricamente que el método ΔK, utilizado comúnmente para seleccionar el número de poblaciones ancestrales en herramientas como STRUCTURE y ADMIXTURE, puede ser inconsistente y favorecer erróneamente valores bajos de K (como K=2) incluso con datos infinitos.

Do, D., Terhorst, J.

Publicado 2026-03-02
📖 5 min de lectura🧠 Análisis profundo
⚕️

Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes una caja gigante llena de canicas de muchos colores diferentes. Tu trabajo es intentar adivinar cuántos "grupos de origen" distintos hay detrás de esas canicas. ¿Son solo dos grupos (rojos y azules)? ¿O hay tres (rojos, azules y verdes)?

Este es el problema que intentan resolver dos programas informáticos muy famosos en genética: STRUCTURE y ADMIXTURE. Estos programas miran el ADN de las personas (o animales) y tratan de decirnos: "Esta persona es 50% de un grupo ancestral y 50% de otro".

Pero hay un truco: para que el programa funcione, tú tienes que decirle de antemano cuántos grupos crees que existen. A esto le llamamos K.

  • Si pones K=2, el programa buscará solo dos grupos.
  • Si pones K=3, buscará tres.

El problema es que a menudo no sabemos cuál es el número correcto. Para ayudar a los científicos a elegir, existe una regla muy popular llamada Δ\DeltaK (Delta K), inventada por un científico llamado Evanno. Esta regla funciona como un "detective de curvas": mira cómo mejora la explicación del programa al aumentar el número de grupos y busca un punto donde la mejora se detiene o cambia de forma brusca (un "codo" en la gráfica).

El Problema: El "Efecto K=2"

Durante años, los científicos han notado algo extraño y frustrante: la regla Δ\DeltaK parece tener una obsesión. Casi siempre elige K=2, incluso cuando hay claramente tres, cuatro o cinco grupos distintos en los datos.

Es como si tuvieras una ensalada con lechuga, tomate y pepino, y el chef te dijera: "¡Seguro que esto solo tiene dos ingredientes!". Aunque tú veas claramente tres, el chef insiste en que solo hay dos. Esto es peligroso porque en biología, si no ves los grupos correctos, podrías tomar malas decisiones sobre cómo proteger especies en peligro o entender enfermedades.

¿Qué descubrieron los autores de este papel?

Los autores, Dat Do y Jonathan Terhorst, decidieron investigar por qué ocurre esto. No solo hicieron experimentos, sino que hicieron matemáticas puras para probar que, bajo ciertas condiciones, la regla Δ\DeltaK está "rota" de forma fundamental.

Aquí está la explicación sencilla usando una analogía:

La Analogía de las Islas y el Puente

Imagina tres islas:

  1. Isla A (muy lejos de las otras).
  2. Isla B y Isla C (que están muy cerca una de la otra, casi como si tuvieran un puente invisible entre ellas).

La gente en la Isla A tiene un ADN muy diferente. La gente en las Islas B y C tiene un ADN muy similar, porque están tan cerca que se mezclan mucho.

Cuando el programa intenta adivinar cuántas islas hay:

  • La diferencia entre A y (B+C) es enorme.
  • La diferencia entre B y C es muy pequeña.

El método Δ\DeltaK funciona midiendo cuánto "mejora" la historia cuando agregas un grupo más.

  • Si pasas de 1 grupo a 2, la historia mejora muchísimo (porque separas a la Isla A de las otras dos). ¡Gran salto!
  • Si pasas de 2 grupos a 3, la historia mejora muy poco (porque solo estás separando a la Isla B de la C, que son casi iguales).

El truco matemático: El método Δ\DeltaK busca el "codo" o el cambio más dramático. Como el salto de 1 a 2 fue gigante y el de 2 a 3 fue diminuto, el método piensa: "¡Ahí está el codo! Me quedo con 2".

Los autores demostraron que, si las islas B y C están lo suficientemente cerca (si su diferencia genética es pequeña comparada con la diferencia total), el método nunca verá el tercer grupo, incluso si tienes datos infinitos. Es un error sistemático, no un accidente.

¿Cuándo pasa esto?

Pasa cuando las poblaciones son demasiado similares entre sí en comparación con la población principal. En términos científicos, usan una medida llamada FSTF_{ST} (que mide qué tan diferentes son los grupos).

  • Si la diferencia entre los grupos pequeños es muy baja (como en poblaciones humanas modernas que han estado migrando mucho), el método falla y te dice que solo hay 2 grupos.
  • Si la diferencia es alta, el método funciona bien.

La Conclusión para la Vida Real

Este papel es importante porque nos dice: "No confíes ciegamente en la regla automática".

  1. La regla Δ\DeltaK tiene un sesgo: Tiende a simplificar demasiado la realidad cuando las diferencias son sutiles.
  2. No es un error de computadora: Es una limitación matemática de cómo funciona la regla.
  3. Qué hacer: Los científicos no deben elegir solo un número mágico (como K=2) y terminar ahí. Deben mirar los resultados para varios números (K=2, K=3, K=4) y usar su conocimiento biológico para decidir cuál tiene más sentido.

En resumen:
El método Δ\DeltaK es como un mapa que a veces decide que dos ciudades vecinas son la misma ciudad porque están muy cerca, ignorando que en realidad son dos lugares distintos. Los autores de este papel han demostrado matemáticamente por qué el mapa falla en esos casos y nos advierten que debemos mirar más allá del mapa automático para ver la verdad completa.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →