Decomposing Observational Multiplicity in Decision Trees: Leaf and Structural Regret

Dit artikel introduceert een theoretisch raamwerk voor het ontleden van observatieve multipliciteit in beslisbomen in 'leaf regret' en 'structurele regret', waarbij wordt aangetoond dat structurele instabiliteit de dominante bron van variatie is en dat deze maatstaven de modelveiligheid kunnen verbeteren door selectief voorspellen.

Mustafa Cavus

Gepubliceerd Fri, 13 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom Twee Boekhouders Met Dezelfde Getallen Tot Verschillende Conclusies Kunnen Kommen

Stel je voor dat je een grote groep mensen moet beoordelen op hun kredietwaardigheid. Je gebruikt een slim computerprogramma (een "beslissingsboom") om te voorspellen wie een lening krijgt en wie niet. Je denkt: "Oké, de computer is slim, het antwoord is objectief."

Maar wat als ik je zeg dat als je dezelfde data net even anders zou verzamelen – bijvoorbeeld door een paar willekeurige klanten een dag later te interviewen – de computer een heel ander antwoord zou geven voor dezelfde persoon?

Dat is het probleem waar dit onderzoek over gaat. Het heet voorspellende multipliciteit: er zijn veel verschillende modellen die allemaal even goed werken, maar die voor jou als individu een totaal ander advies geven.

De auteurs van dit paper, Mustafa Cavus en zijn team, hebben een manier bedacht om te begrijpen waarom die verschillen ontstaan. Ze splitsen de verwarring op in twee soorten "spijt" (in het Engels: regret). Laten we het uitleggen met een simpele analogie.

De Twee Soorten "Spit" (Regret)

Stel je voor dat je een boom hebt die mensen in groepjes verdeelt (bijvoorbeeld: "Mensen met een hoog inkomen" vs. "Mensen met een laag inkomen"). Binnen die groepjes maakt de computer een voorspelling.

De auteurs zeggen dat de onzekerheid in de voorspelling uit twee bronnen komt:

1. Blad-Spijt (Leaf Regret): De "Ruis" in de Groep

Stel je voor dat je in een groepje van 10 mensen zit die allemaal "hoog inkomen" hebben. De computer kijkt naar deze 10 mensen en zegt: "9 van de 10 hebben een goede creditcard, dus jij ook."
Maar wat als je die 10 mensen had gewisseld met 10 andere mensen uit dezelfde groep? Misschien hadden er dan 8 goede creditcards en 2 slechte gehad. De voorspelling zou dan iets anders zijn.

  • De Analogie: Dit is als het meten van de temperatuur met een onnauwkeurige thermometer. Als je 10 keer meet, krijg je 10 verschillende getallen. De groep zelf is stabiel, maar de meting binnen die groep is een beetje wazig door toeval.
  • In het kort: Dit is de onzekerheid die ontstaat omdat je niet alle mensen in de wereld kent, maar slechts een steekproef. Het is "ruis" binnen een vast groepje.

2. Structuur-Spijt (Structural Regret): De "Willekeur" van de Groepindeling

Nu komt het spannende deel. Wat als de computer de hele boom anders opbouwt?
Stel je voor dat de computer besluit: "Nee, we verdelen mensen niet op inkomen, maar op hun leeftijd." Of misschien maakt hij een heel andere scheidslijn: "Mensen met een inkomen boven 3000 euro" in plaats van "boven 2500 euro".

Door deze kleine verandering in de indeling van de groepen, belandt jij plotseling in een heel ander groepje met een heel ander advies.

  • De Analogie: Dit is alsof je een grote taart in stukken snijdt. Als je de taart net iets anders snijdt (een andere hoek, een andere dikte), beland jij plotseling in een ander stukje taart. Het stukje taart zelf is misschien perfect, maar het feit dat je in een ander stukje zit, verandert je ervaring volledig.
  • In het kort: Dit is de onzekerheid die ontstaat omdat de computer zelf niet weet hoe hij de wereld het beste moet verdelen. Het is de instabiliteit van de kaart zelf, niet van de punten op de kaart.

Wat Vonden Ze?

De onderzoekers hebben dit getest op echte data (zoals kredietgegevens uit Taiwan, Duitsland en Polen). Hun belangrijkste ontdekkingen zijn:

  1. De Indeling is de Boosdoener: Ze ontdekten dat de meeste verwarring (meer dan 15 keer zoveel!) komt door Structuur-Spijt. De manier waarop de computer de groepen indeelt, is veel onstabiel dan de ruis binnen die groepen.
    • Dagelijkse taal: Het probleem is niet dat de thermometer onnauwkeurig is, maar dat de kaart waarop we de gebieden afbakenen, steeds een beetje verschuift.
  2. Het Werkt als een Veiligheidsnet: Ze bedachten een slimme truc. Als de computer merkt dat een voorspelling heel gevoelig is voor deze "willekeurige indeling" (hoge structuur-spijt), kan hij zeggen: "Ik durf dit niet te zeggen."
    • In plaats van een gok te doen, zegt de computer: "Ik weet het niet zeker, laat een mens dit controleren."
    • Door dit te doen, konden ze in sommige gevallen het succespercentage (recall) van goede voorspellingen van 92% naar 100% brengen. Ze lieten alleen de "veilige" voorspellingen door en stopten de twijfelachtige gevallen bij mensen.

Waarom is Dit Belangrijk?

In belangrijke situaties – zoals het geven van een hypotheek, het diagnosticeren van een ziekte of het beoordelen van een straf – is het niet genoeg om te zeggen: "Gemiddeld werkt het goed."

Als een computer voor jou "ja" zegt en voor je buurman "nee", terwijl jullie bijna hetzelfde zijn, is dat gevaarlijk. Dit onderzoek geeft ons een manier om te zien:

  • Is het probleem dat we te weinig data hebben? (Blad-spijt)
  • Of is het probleem dat het algoritme zelf te wispelturig is? (Structuur-spijt)

En het beste nieuws: als we weten dat het algoritme wispelturig is, kunnen we het systeem "eerlijk" maken. We kunnen het systeem leren om te zeggen: "Ik twijfel, vraag een mens." Dat maakt beslissingen veiliger en eerlijker voor iedereen.

Samenvattend:
De auteurs hebben een meetlat bedacht om te zien waarom computers soms wisselende antwoorden geven. Ze ontdekten dat de grootste oorzaak niet de data zelf is, maar de manier waarop de computer de wereld indeelt. Door dit te meten, kunnen we slimme systemen veiliger maken door ze te laten twijelen waar het nodig is, in plaats van ze blindelings te laten gokken.