Quality versus quantity of training datasets for artificial… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Castelo, A., O'Connor, C., Gupta, A. C., Anderson, B. M., Woodland, M., Altaie, M., Koay, E. J., Odisio, B. C., Tang, T. T., Brock, K. K.

Gepubliceerd 2026-02-18

📖 3 min leestijd☕ Koffiepauze-leesvoer

Bekijk op medRxiv ↗PDF ↗

CC0 1.0

Oorspronkelijke auteurs: Castelo, A., O'Connor, C., Gupta, A. C., Anderson, B. M., Woodland, M., Altaie, M., Koay, E. J., Odisio, B. C., Tang, T. T., Brock, K. K.

Oorspronkelijk artikel vrijgegeven aan het publieke domein onder CC0 1.0 (https://creativecommons.org/publicdomain/zero/1.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat je een meesterkok wilt trainen om een gigantische taart (de lever) perfect te snijden en te scheiden van de rest van de taart (het lichaam) op basis van foto's van de taart. De vraag is: heb je liever één heel goed boek met perfecte instructies, of een stapel van duizenden boeken waarin sommige instructies perfect zijn, maar andere een beetje rommelig?

Dit onderzoek van artsen en AI-experts gaat precies over die vraag, maar dan voor computers die medische scans moeten analyseren.

Hier is wat ze hebben ontdekt, vertaald naar alledaags taal:

De Grote Proef

De onderzoekers hadden een enorme verzameling van 3.089 CT-scans (zoals heel gedetailleerde foto's van binnenin het lichaam) van de lever. Ze deelden deze in twee groepen:

De "Perfecte" Groep: Een kleinere verzameling (ongeveer 244 scans) die door experts met de grootste zorgvuldigheid en precisie was ingekleurd. Dit is alsof je een recept hebt dat door een Michelin-ster-kok is geschreven.
De "Ruwe" Groep: Een veel grotere verzameling (tot wel 2.840 scans) die wat minder perfect was ingekleurd, maar wel in veel grotere hoeveelheden beschikbaar was. Dit is alsof je duizenden recepten hebt van verschillende koks; sommige zijn top, andere zijn wat slordig.

Ze lieten een computer (een AI) leren van deze groepen om de lever op de scans te herkennen.

Het Resultaat: Kwaliteit wint het van Aantal (in de basis)

Het verrassende nieuws is dit: De computer die leerde van de kleine, perfecte groep, deed net zo goed als de computer die leerde van de enorme, rommelige groep.

In de wereld van de AI betekent dit:

De "perfecte" computer en de "grote" computer scoorden bijna exact hetzelfde op hun testresultaten.
Het maakt voor de basisprestatie niet uit of je 10 keer zo veel data hebt, als die data maar een beetje minder goed is. Een klein, perfect boekje is net zo goed als een hele bibliotheek aan gemiddelde boeken.

Maar... Er is een "Maar"

Toen ze de computers echter op een volledig nieuwe, onbekende taart (een externe test) lieten kijken, gebeurde er iets interessants:

De computer die had geoefend met de grote, ruwe verzameling (de duizenden scans) was net iets beter in het omgaan met verrassingen.
Het leek erop dat door de enorme hoeveelheid variatie in de grote groep, de computer een beetje "breder" was gaan denken en beter kon omgaan met situaties die hij nog nooit had gezien.

De Conclusie in Eén Zin

Het is een beetje als het leren van een taal:

Als je perfecte grammatica wilt leren, helpt het om een paar zeer goede boeken te lezen (Kwaliteit).
Maar als je vlot willen spreken met allerlei verschillende mensen, helpt het om ook veel minder perfecte gesprekken te horen (Hoeveelheid).

Kortom: Voor de meeste taken is een klein, perfect dataset net zo goed als een enorm, rommelig dataset. Maar als je wilt dat je AI echt goed kan omgaan met onverwachte situaties, kan die extra hoeveelheid (zelfs met minder perfecte data) toch een klein voordeel bieden. Het hangt er dus van af wat je precies wilt bereiken!

Probleemstelling

In de medische beeldvorming speelt kunstmatige intelligentie (AI) een steeds grotere rol, met name bij segmentatie taken zoals het afbakenen van organen. Een van de grootste uitdagingen bij het trainen van deze modellen is echter de beperkte beschikbaarheid van zorgvuldig samengestelde (curated) datasets. Er bestaat een fundamentele vraag binnen het veld: is het beter om te investeren in een kleinere dataset met uiterst hoge kwaliteit van annotaties, of in een veel grotere dataset die mogelijk minder strikt is gecontroleerd (mixed-curation)? Deze studie richt zich specifiek op het vergelijken van de impact van annotatiekwaliteit versus datasetgrootte op de prestaties van AI-modellen voor de segmentatie van de volledige lever.

Methodologie

De onderzoekers hebben een robuust experimenteel ontwerp gebruikt met de volgende stappen:

Datacollectie: Er werden 3.089 abdominale CT-scans verzameld met volledige levercontouren. De data kwam van het MD Anderson Cancer Center (MDA) en een MICCAI-uitdaging.
Dataverdeling:
- Testset: 249 scans werden gereserveerd voor interne testdoeleinden.
- Externe validatie: 30 scans (specifiek de MICCAI-uitdaging data) werden apart gehouden voor externe validatie om generaliseerbaarheid te testen.
- Trainingsdata: De resterende scans werden onderverdeeld in twee categorieën: een hoogwaardig gecurateerde groep (highly-curated) en een gemengd gecurateerde groep (mixed-curation).
Modeltraining: Er werden 3D nnU-Net segmentatiemodellen getraind op sub-datasets van verschillende groottes, afkomstig uit beide groepen.
Evaluatiemetrics: De prestaties werden gemeten aan de hand van:
- Dice Similarity Coefficient (DSC) voor 3D-overlap.
- Surface DSC met een marge van 2mm (SD 2mm).
- 95e percentiel van de Hausdorff-afstand (HD95) voor randnauwkeurigheid.
- 2D axiale slice DSC (Slice DSC) voor lokale prestaties.

Belangrijkste Bijdragen

De studie levert een kwantitatief antwoord op de discussie over "kwaliteit versus kwantiteit" in medische AI-datasets. Het biedt empirisch bewijs door direct vergelijkende experimenten uit te voeren waarbij datasetgrootte en curation-niveau systematisch worden gevarieerd, terwijl de modelarchitectuur (nnU-Net) constant wordt gehouden.

Resultaten

De resultaten tonen een fascinerend nuanceverschil tussen 3D-globale en 2D-lokale prestaties:

3D-prestaties (Globaal): Het model getraind op de hoogwaardig gecurateerde dataset (244 scans) presteerde statistisch niet significant anders dan het model getraind op de gemengde dataset (2.840 scans, bijna 10x zo groot).
- DSC: Beide modellen behaalden 0,971 ( $p > 0,999$ ).
- SD 2mm: Beide modellen behaalden 0,958 ( $p > 0,999$ ).
- HD95: Hoogwaardig (2,98 mm) vs. Gemengd (2,87 mm), verschil niet significant ( $p > 0,999$ ).
Externe Validatie & Lokale Prestaties: Op de 30 externe scans presteerde het gemengde model (710 scans) significant beter op de Slice DSC (0,929) dan het hoogwaardige model (0,923), met een p-waarde van 0,012. Dit suggereert dat grotere datasets, zelfs met variërende kwaliteit, beter kunnen generaliseren naar nieuwe data en lokale verbeteringen bieden.

Betekenis en Conclusie

De studie concludeert dat de keuze tussen datasetkwaliteit en -kwantiteit niet zwart-wit is, maar nuance en doelafhankelijkheid vereist:

Voor globale 3D-overlappingsmetrieken kan een kleinere, zeer zorgvuldig geannoteerde dataset net zo effectief zijn als een dataset die een orde van grootte groter is maar minder strikt gecontroleerd. Dit is kostenefficiënt voor organisaties met beperkte resources voor annotatie.
Echter, voor generaliseerbaarheid naar externe populaties en voor lokale precisie (zoals zichtbaar in 2D-slices), tonen grotere, gemengde datasets duidelijke voordelen.

De bevindingen suggereren dat onderzoekers en klinische praktijken een strategische afweging moeten maken: als het doel maximale globale consistentie is, kan kwaliteit de overhand hebben; als het doel robuustheid in diverse klinische settingen is, kan de schaal van de dataset (kwantiteit) cruciaal zijn, zelfs ten koste van perfecte uniformiteit in de annotatiekwaliteit.

Quality versus quantity of training datasets for artificial intelligence-based whole liver segmentation