Quality versus quantity of training datasets for artificial intelligence-based whole liver segmentation

Deze studie concludeert dat voor AI-gestuurde leversegmentatie hooggekwalificeerde, kleinere datasets vergelijkbare prestaties leveren als veel grotere, minder gestructureerde datasets, waarbij de keuze tussen kwaliteit en kwantiteit afhankelijk is van de specifieke doelstellingen en generaliseerbaarheid.

Castelo, A., O'Connor, C., Gupta, A. C., Anderson, B. M., Woodland, M., Altaie, M., Koay, E. J., Odisio, B. C., Tang, T. T., Brock, K. K.

Gepubliceerd 2026-02-18
📖 3 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterkok wilt trainen om een gigantische taart (de lever) perfect te snijden en te scheiden van de rest van de taart (het lichaam) op basis van foto's van de taart. De vraag is: heb je liever één heel goed boek met perfecte instructies, of een stapel van duizenden boeken waarin sommige instructies perfect zijn, maar andere een beetje rommelig?

Dit onderzoek van artsen en AI-experts gaat precies over die vraag, maar dan voor computers die medische scans moeten analyseren.

Hier is wat ze hebben ontdekt, vertaald naar alledaags taal:

De Grote Proef

De onderzoekers hadden een enorme verzameling van 3.089 CT-scans (zoals heel gedetailleerde foto's van binnenin het lichaam) van de lever. Ze deelden deze in twee groepen:

  1. De "Perfecte" Groep: Een kleinere verzameling (ongeveer 244 scans) die door experts met de grootste zorgvuldigheid en precisie was ingekleurd. Dit is alsof je een recept hebt dat door een Michelin-ster-kok is geschreven.
  2. De "Ruwe" Groep: Een veel grotere verzameling (tot wel 2.840 scans) die wat minder perfect was ingekleurd, maar wel in veel grotere hoeveelheden beschikbaar was. Dit is alsof je duizenden recepten hebt van verschillende koks; sommige zijn top, andere zijn wat slordig.

Ze lieten een computer (een AI) leren van deze groepen om de lever op de scans te herkennen.

Het Resultaat: Kwaliteit wint het van Aantal (in de basis)

Het verrassende nieuws is dit: De computer die leerde van de kleine, perfecte groep, deed net zo goed als de computer die leerde van de enorme, rommelige groep.

In de wereld van de AI betekent dit:

  • De "perfecte" computer en de "grote" computer scoorden bijna exact hetzelfde op hun testresultaten.
  • Het maakt voor de basisprestatie niet uit of je 10 keer zo veel data hebt, als die data maar een beetje minder goed is. Een klein, perfect boekje is net zo goed als een hele bibliotheek aan gemiddelde boeken.

Maar... Er is een "Maar"

Toen ze de computers echter op een volledig nieuwe, onbekende taart (een externe test) lieten kijken, gebeurde er iets interessants:

  • De computer die had geoefend met de grote, ruwe verzameling (de duizenden scans) was net iets beter in het omgaan met verrassingen.
  • Het leek erop dat door de enorme hoeveelheid variatie in de grote groep, de computer een beetje "breder" was gaan denken en beter kon omgaan met situaties die hij nog nooit had gezien.

De Conclusie in Eén Zin

Het is een beetje als het leren van een taal:

  • Als je perfecte grammatica wilt leren, helpt het om een paar zeer goede boeken te lezen (Kwaliteit).
  • Maar als je vlot willen spreken met allerlei verschillende mensen, helpt het om ook veel minder perfecte gesprekken te horen (Hoeveelheid).

Kortom: Voor de meeste taken is een klein, perfect dataset net zo goed als een enorm, rommelig dataset. Maar als je wilt dat je AI echt goed kan omgaan met onverwachte situaties, kan die extra hoeveelheid (zelfs met minder perfecte data) toch een klein voordeel bieden. Het hangt er dus van af wat je precies wilt bereiken!

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →