Model selection in ADMIXTURE can be inconsistent: proof of the K=2 phenomenon

Dit artikel bewijst theoretisch dat de veelgebruikte ΔK-methode voor het selecteren van het aantal ancestrale populaties (K) in ADMIXTURE inconsistent kan zijn en zelfs met oneindige data vaak onterecht K=2 kiest, zelfs wanneer er meer substructuur aanwezig is.

Do, D., Terhorst, J.

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote bak met gekleurde marmeren hebt. Sommige zijn rood, sommige blauw, en sommige groen. Maar in de bak zijn ze niet perfect gescheiden; er zitten ook veel marmeren die een beetje paars zijn (rood + blauw) of oranje (rood + geel).

Je wilt weten: Hoeveel verschillende oorspronkelijke kleuren (stammen) zitten er eigenlijk in deze bak?

In de wereld van genetica doen wetenschappers precies dit. Ze kijken naar het DNA van mensen of dieren om te zien hoe ze met elkaar verwant zijn. Twee populaire methoden om dit te doen heten STRUCTURE en ADMIXTURE. Ze proberen de marmeren in groepjes te verdelen op basis van hun "stam".

Maar hier is het probleem: Je moet eerst zelf kiezen hoeveel groepen er zijn. Noem dit getal K.

  • Kies je K=2? Dan zeg je: "Er zijn alleen maar Rood en Blauw."
  • Kies je K=3? Dan zeg je: "Er zijn Rood, Blauw én Groen."

De meeste mensen gebruiken een slimme rekenregel van een man genaamd Evanno (de ΔK\Delta K-methode) om dit getal K te raden. Deze regel kijkt naar de data en zegt: "Kijk, hier buigt de lijn het hardst om! Dit is het juiste aantal groepen."

Het probleem: De "K=2" Valstrik

Wetenschappers hebben al lang gemerkt dat deze slimme rekenregel vaak een fout maakt. Zelfs als er duidelijk drie groepen zijn, zegt de regel vaak: "Nee, er zijn er maar twee!" (K=2).

Dit is als een detective die een moordzaak onderzoekt met drie verdachten, maar de bewijslast zo interpreteert dat hij concludeert: "Het waren maar twee mensen die het deden." Dit kan leiden tot verkeerde conclusies over hoe soorten zich ontwikkelen of hoe we natuurgebieden moeten beschermen.

Wat bewijzen deze auteurs?

De auteurs van dit paper (Dat Do en Jonathan Terhorst) zeggen: "Wij hebben de wiskundige reden gevonden waarom deze regel zo dom doet."

Ze bewijzen dat er een specifieke situatie is waarin de rekenregel altijd faalt, zelfs als je oneindig veel data hebt.

De Analogie van de Drie Vrienden:
Stel je drie vrienden voor:

  1. Jan (woont in het noorden).
  2. Piet (woont in het oosten).
  3. Klaas (woont ook in het oosten, maar een stukje verder weg dan Piet).

Jan is heel anders dan Piet en Klaas. Maar Piet en Klaas lijken op elkaar alsof ze tweeling zijn.

De rekenregel (ΔK\Delta K) kijkt naar de "afstand" tussen de groepen.

  • Als Piet en Klaas erg op elkaar lijken (ze wonen dicht bij elkaar), en Jan is heel anders, dan denkt de rekenregel: "Ah, Piet en Klaas zijn zo op elkaar, dat is eigenlijk één groep. En Jan is de andere groep. Dus er zijn 2 groepen."
  • De rekenregel ziet niet dat Piet en Klaas toch twee aparte groepen zijn, omdat het verschil tussen hen zo klein is vergeleken met het grote verschil met Jan.

De auteurs bewijzen wiskundig dat dit gebeurt als de verschillen tussen de groepen (in genetische termen: FSTF_{ST}) te klein zijn. Als de groepen te veel op elkaar lijken, "smelt" de rekenregel twee groepen samen tot één, en kiest dan voor K=2.

Waarom is dit belangrijk?

  1. Het is geen fout in de software: Het is geen bug in het computerprogramma. Het is een fundamenteel probleem met de manier waarop de rekenregel werkt.
  2. Het gebeurt bij echte mensen: De auteurs tonen aan dat dit scenario heel vaak voorkomt bij moderne menselijke populaties. Onze genetische verschillen zijn vaak zo klein dat deze rekenregel ons bijna altijd vertelt dat er maar 2 grote groepen zijn, terwijl er in werkelijkheid veel meer subgroepen zijn.
  3. Advies voor wetenschappers: Je mag niet blindelings vertrouwen op één getal (K=2) dat deze methode oplevert. Je moet ook kijken naar de biologische context en andere manieren om naar de data te kijken.

Samenvatting in één zin

Deze paper legt uit waarom de meest gebruikte rekenregel om populaties te tellen, vaak "te slordig" is en twee verschillende groepen samenvoegt tot één, vooral wanneer die groepen net iets op elkaar lijken, waardoor we denken dat er maar twee soorten zijn in plaats van drie of meer.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →