Comparison of Deep Learning Tools for Optic Nerve Axon Quantification Finds Limited Generalizability on Independent Validation

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Het Grote Proefje: Slimme Computers vs. De Werkelijke Wereld

Stel je voor dat je een groep zeer slimme, jonge detectives hebt die zijn getraind om zenuwcellen (de 'axonen') in het oog van ratten te tellen. Deze cellen zijn belangrijk omdat hun afname een teken is van glaucoom (een oogziekte).

Vroeger moesten mensen deze cellen met de hand tellen door een microscoop. Dat was saai, duurde eeuwen en iedereen telde er anders bij. Dus hebben onderzoekers kunstmatige intelligentie (AI) ontwikkeld om dit voor hen te doen. De resultaten in de artikelen van de makers van deze AI waren fantastisch: de computers telden bijna perfect mee met de experts.

Maar hier komt de twist:
De auteurs van dit nieuwe artikel wilden weten: Werken deze slimme detectives ook als ze naar een heel andere zaak worden gestuurd?

Ze hebben drie populaire AI-programma's (AxoNet, AxonDeepSeg en AxoNet 2.0) gepakt en ze op een nieuwe, onbekende dataset laten testen. Het was alsof je een detective die perfect is getraind op het oplossen van moorden in Londen, plotseling naar een dorpje in Nederland stuurt en vraagt: "Kun jij hier ook moorden oplossen?"

Wat hebben ze ontdekt? (De "Alles of Niets" Realiteit)

De resultaten waren een beetje teleurstellend, maar heel leerzaam:

De "Klassieke" Prestatie: In de oorspronkelijke artikelen (waar de AI's zelf werden getraind) werkten ze fantastisch. Ze hadden een score van bijna 100% (een correlatie van 0,96 tot 0,99). Het leek alsof ze onfeilbaar waren.
De "Echte" Test: Toen ze de AI's op de nieuwe, onbekende rat-ogen lieten testen, zakte de prestatie. De scores vielen terug naar ongeveer 0,79 tot 0,89.
- De metafoor: Het is alsof een student die 100% haalde op een proefwerk dat hij uit zijn hoofd heeft geleerd, op een vergelijkend examen met nieuwe vragen 80% haalt. Het is nog steeds een goed cijfer, maar niet meer "perfect".

Waarom ging het mis? (Het "Kleedje" Probleem)

De AI's waren getraind op specifieke foto's van rat-ogen met een specifieke kleurverf (PPD). Maar in de echte wereld maken verschillende laboratoria hun foto's net iets anders:

Misschien is de verf iets donkerder.
Misschien is de belichting anders.
Misschien zijn de ratten van een ander ras.

Voor de computer is dit alsof je een detective stuurt die alleen getraind is om rode schoenen te herkennen, maar je vraagt hem nu om blauwe schoenen te tellen. Hij ziet de schoenen wel, maar hij mist er veel omdat ze er anders uitzien dan hij gewend is.

Het Grappige Detail: "Te voorzichtig"

Een van de interessantste ontdekkingen was hoe de AI's het fout deden:

Ze waren extreem voorzichtig. Als ze zeiden: "Hier zit een zenuwcel", dan was dat bijna altijd waar (ze maakten weinig fouten door iets te zien wat er niet was).
MAAR: Ze misten heel veel zenuwcellen die er wel waren. Ze zagen er maar een klein deel van.

De analogie: Stel je voor dat je een visser bent die alleen de grootste vissen vangt. Je vangt alleen de vissen die je zeker weet dat het vissen zijn (geen twijfel), maar je laat 70% van de vissen in het water liggen. Je vangst is "zuiver", maar je vangt niet genoeg.

Wat betekent dit voor de toekomst?

De auteurs concluderen dat deze AI-tools niet klaar zijn om zomaar overal te worden gebruikt.

Ze werken goed in het lab waar ze zijn gemaakt.
Ze werken minder goed in een ander lab.

De boodschap:
We moeten niet blindelings vertrouwen op de mooie cijfers uit de originele artikelen. Net zoals je een auto niet koopt zonder een proefrit op jouw eigen wegen, moeten we deze AI-tools eerst testen op "onbekend terrein" voordat we ze in de echte wereld gaan gebruiken.

De auteurs pleiten ervoor dat:

Er een standaard testset komt (een soort "rijbewijsexamen" voor AI's) waar alle modellen tegen worden getoetst.
De code van deze programma's openbaar wordt gemaakt, zodat iedereen ze kan testen.
Er meer samenwerking komt tussen verschillende laboratoria om te zorgen dat de AI's leren omgaan met verschillende soorten foto's.

Kortom: De technologie is veelbelovend, maar de AI's zijn nog een beetje "bange" en moeten nog wat meer ervaring opdoen voordat ze echt onafhankelijk kunnen werken.

Each language version is independently generated for its own context, not a direct translation.

Titel

Vergelijking van Deep Learning-tools voor de kwantificering van axonen in de oogzenuw: Beperkte generaliseerbaarheid bij onafhankelijke validatie.

1. Het Probleem

De kwantificering van axonen in de oogzenuw (optische zenuw) is cruciaal voor het evalueren van neuroprotectieve interventies bij glaucoom en andere optische neuropathieën. Handmatig tellen is echter tijdrovend, onderhevig aan variatie tussen waarnemers en onpraktisch voor grote preklinische studies. Hoewel machine learning (ML) en deep learning (DL) belovende oplossingen bieden voor geautomatiseerde telling, is de generaliseerbaarheid van deze modellen onzeker. Modellen die uitstekend presteren binnen hun oorspronkelijke trainingsomgeving, falen vaak wanneer ze worden toegepast op onafhankelijke datasets met verschillende voorbereidingsprotocollen, kleuringstechnieken of diersoorten (het "domain shift"-probleem). Er ontbreekt een gestandaardiseerde validatie om te bepalen of deze tools betrouwbaar zijn voor gebruik buiten de oorspronkelijke laboratoria.

2. Methodologie

De studie combineert twee methodologische benaderingen:

Scoping Review:
- Doel: Identificatie van bestaande deep learning-modellen voor axonkwantificering en synthese van hun gerapporteerde prestaties.
- Proces: Volgde PRISMA-ScR-richtlijnen. Databases (PubMed, EMBASE, Scopus, Cochrane CENTRAL) werden doorzocht van 2000 tot 2025.
- Selectie: Van 2.036 records werden 4 manuscripten geselecteerd die drie unieke deep learning-modellen beschreven: AxoNet, AxonDeep en AxoNet 2.0.
- Data: Extractie van modelarchitecturen, trainingsdata (soort, staining, ziektemodel) en prestatie-indicatoren (correlatiecoëfficiënten, Dice-coëfficiënten, etc.).
Onafhankelijke Validatiestudie:
- Dataset: Een nieuw dataset van 57 afbeeldingen van rat-oogzenuwdoorsneden (gekleurd met paraphenylenediamine/PPD) met 9.514 handmatig geannoteerde axonen (waarvan de telling als "ground truth" diende).
- Modellen getest:
  1. AxoNet: Oorspronkelijk beschreven door Ritch et al. (2020).
  2. AxonDeepSeg: Gebruikt als vervanging voor AxonDeep (Deng et al., 2021), omdat de oorspronkelijke code niet publiek beschikbaar was. AxonDeepSeg is een open-source tool voor zenuwvezelsegmentatie.
  3. AxoNet 2.0: Een verbeterde versie van AxoNet (Goyal et al., 2023).
- Proces: Alle modellen werden toegepast met hun standaardparameters en zonder finetuning op de nieuwe dataset ("out-of-the-box" prestatie).
- Metingen:
  - Aantalsovereenkomst: Pearson-correlatie (r), gemiddelde absolute fout (MAE), en root mean squared error (RMSE).
  - Segmentatiekwaliteit: Dice-coëfficiënt, Intersection over Union (IoU), precisie en recall.

3. Belangrijkste Bijdragen

Eerste onafhankelijke validatie: Dit is de eerste studie die publiek beschikbare deep learning-modellen voor oogzenuwhistologie test op een volledig onafhankelijke dataset, buiten de oorspronkelijke trainingsomgeving.
Kwantificering van de Generaliseerbaarheidskloof: De studie meet systematisch het verschil tussen binnen-studie prestaties (zoals gerapporteerd in de literatuur) en buiten-studie prestaties.
Ontmaskering van Segmentatiekwaliteit: Het onthult een discrepantie tussen hoge correlaties bij het tellen van axonen en lage prestaties bij de daadwerkelijke segmentatie (het identificeren van de vorm van de axonen).
Aanbevelingen voor Standaardisatie: De studie pleit voor gedeelde benchmark-datasets en verplichte externe validatie voordat modellen breed worden geadopteerd.

4. Resultaten

Gerapporteerde vs. Onafhankelijke Prestaties:
- In de originele publicaties varieerden de correlatiecoëfficiënten tussen 0,959 en 0,99.
- Bij onafhankelijke validatie daalden deze waarden aanzienlijk:
  - AxoNet 2.0: $r = 0,89$ (kleinste daling).
  - AxonDeepSeg: $r = 0,86$ .
  - AxoNet: $r = 0,79$ (grootste daling).
- De daling in correlatie varieerde van 0,07 tot 0,18 punten.
Segmentatiekwaliteit (Pixel-niveau):
- Er werd een opmerkelijk patroon waargenomen: Hoge precisie (>0,94) maar zeer lage recall (0,18 - 0,27).
- Dit betekent dat de modellen correct waren wanneer ze een axon detecteerden, maar ze misten een groot deel van de werkelijke axonen (conservatieve segmentatie).
- De Dice-coëfficiënten daalden van een gerapporteerd benchmark van 0,81 naar 0,29 - 0,40 in de onafhankelijke test.
Ranking Verandering: De rangschikking van de modellen veranderde. AxoNet had de hoogste correlatie in de oorspronkelijke studie voor ratten, maar de laagste in de onafhankelijke validatie. AxoNet 2.0 presteerde het meest robuust.

5. Betekenis en Conclusie

De studie concludeert dat deep learning-modellen voor de kwantificering van axonen in de oogzenuw sterke prestaties laten zien binnen hun eigen studies, maar betekenisvolle prestatieverliezen vertonen bij toepassing op onafhankelijke datasets.

Generaliseerbaarheidskloof: De kloof tussen binnen- en buiten-studie resultaten onderstreept het risico van "overfitting" op specifieke laboratoriumprotocollen (kleuring, microscopie-instellingen, diersoort).
Toepassingskader: Hoewel de correlaties bij validatie (0,79-0,89) nog steeds nuttig kunnen zijn voor veel onderzoeksdoeleinden (en beter zijn dan sommige handmatige variaties), zijn ze niet voldoende voor nauwkeurige morfometrische analyses die exacte axongrootte vereisen, vanwege de lage recall.
Toekomstperspectief: Voordat deze tools wijdverbreid worden ingezet, zijn multi-center validatiestudies, gestandaardiseerde benchmark-datasets met expert-consensus annotaties, en de ontwikkeling van domain adaptation-technieken noodzakelijk. De publicatie van modelimplementaties is essentieel voor onafhankelijke verificatie.

Kortom, de studie waarschuwt tegen het blindelings vertrouwen op gerapporteerde prestaties van AI-modellen in de histologie en pleit voor een strengere validatiestandaard in de wetenschappelijke gemeenschap.

Comparison of Deep Learning Tools for Optic Nerve Axon Quantification Finds Limited Generalizability on Independent Validation

Het Grote Proefje: Slimme Computers vs. De Werkelijke Wereld

Wat hebben ze ontdekt? (De "Alles of Niets" Realiteit)

Waarom ging het mis? (Het "Kleedje" Probleem)

Het Grappige Detail: "Te voorzichtig"

Wat betekent dit voor de toekomst?

Titel

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

De novo acyl carrier proteins display structure-independent modification and sequence novelty

Resting-state fMRI foundation models enable robust and generalizable latent neural target discovery in cognitive aging interventions

Chemically responsive protein switches for the precise control of biological activities

Exudate-Guided Janus Trilayer Bioelectronic Dressing for Multiplexed Sensing and Therapy of Chronic Wounds

An Implantable Wireless Battery-Free Selective Vagus Nerve Stimulator