Critical Assessment of ML models for ADMET Prediction in TDC leaderboards

Deze studie toont aan dat de meeste topmodellen in de TDC ADMET-leaderboards niet reproduceerbaar zijn of last hebben van datalekken en overfitting, en pleit daarom voor strengere benchmarkprocedures met verborgen testsets en gestandaardiseerde inferentieomgevingen.

Oorspronkelijke auteurs: Koleiev, I., Stratiichuk, R., Shevchuk, N., Melnychenko, M., Nyporko, O., Todoryshyn, D., Husak, V., Starosyla, S., Yesylevskyy, S. O., Nafiiev, A.

Gepubliceerd 2026-02-28
📖 5 min leestijd🧠 Diepgaand
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wereld van medicijnontwikkeling een enorme sportcompetitie is. Wetenschappers bouwen allemaal verschillende "robots" (computerprogramma's) die moeten voorspellen of een nieuw chemisch stofje veilig is voor mensen en of het goed werkt in het lichaam.

Om te zien wie de beste robot is, is er een groot online scorebord: de TDC Leaderboard. Dit is als een ranglijst in een e-sporttoernooi. De robots die bovenaan staan, krijgen de meeste aandacht, funding en roem.

De auteurs van dit artikel (een team van Receptor.AI) hebben echter besloten om niet alleen naar de cijfers te kijken, maar om echt te controleren of deze robots wel eerlijk spelen en of ze wel werken zoals beloofd. Ze hebben de top-3 robots van elk van de 22 verschillende sportonderdelen (zoals "opname in het bloed" of "giftigheid") onder de loep genomen.

Hier is wat ze hebben ontdekt, vertaald in begrijpelijke taal:

1. De "Spookrobots" (Niet reproduceerbaar)

Veel robots die bovenaan de lijst staan, blijken in het echt niet te bestaan of niet te werken.

  • De analogie: Het is alsof iemand zegt: "Ik heb de snelste auto ter wereld gebouwd!" en hij toont je een foto van een strakke Ferrari. Maar als je vraagt om de sleutel om hem te starten, zegt hij: "Oh, de sleutel is zoekgeraakt" of "De motor past niet in deze garage".
  • Het probleem: Voor veel topmodellen kon de code niet worden gevonden, of de instructies om ze te installeren waren zo slecht dat niemand ze kon laten draaien. Ze waren als een spook: je zag ze op de ranglijst, maar je kon ze niet aanraken.

2. De "Cheaters" (Datalekken)

Sommige robots hebben de antwoorden al gezien voordat ze de toets mochten maken.

  • De analogie: Stel je voor dat je een examen doet. De meeste studenten studeren alleen de theorie. Maar een slimme student heeft per ongeluk (of expres) de antwoorden op het examenblad in zijn studiemateriaal gevonden. Hij scoort perfect, maar hij heeft de stof niet echt geleerd.
  • Het probleem: De auteurs vonden dat sommige modellen (zoals MiniMol, GradientBoost en XGBoost) "lekkages" hadden. Dit betekent dat de computer tijdens het leren ook de antwoorden van de test had gezien. Ze waren niet slim, ze waren gewoon "geleerd" om de specifieke test te hacken. Als je ze een nieuwe, onbekende test gaf, faalden ze.

3. De "Klokkende Klokken" (Overfitting)

De auteurs hebben zelf een eerlijke robot gebouwd en hem vervolgens "gek" gemaakt om te zien wat er gebeurt als je expres op de test leert.

  • De analogie: Stel je voor dat je een student traint voor een wiskundetoets. Als je hem alleen maar de exacte vragen van het oude examen laat oefenen, kan hij die vragen uit zijn hoofd leren. Hij krijgt dan een 10, maar als je hem een nieuwe vraag stelt, weet hij het antwoord niet meer.
  • Het probleem: Ze lieten zien dat als je een model expres laat "leren" op de openbare testset, het plotseling van een middelmatige score naar een top-3 plek kan springen. Dit betekent dat de huidige ranglijst heel gevoelig is voor "cheating" of per ongeluk te veel aanpassen aan de test.

4. De "Eerlijke Kampioenen"

Niet alles was slecht. Er waren drie modellen die door de strenge controle kwamen: CaliciBoost, MapLight en MapLight+GNN.

  • De analogie: Dit zijn de atleten die daadwerkelijk hebben getraind, hun spullen hebben meegenomen en de wedstrijd eerlijk hebben gewonnen. Ze konden hun code laten zien, hun instructies waren helder, en hun resultaten waren eerlijk.
  • Het resultaat: Deze modellen presteerden goed, maar zelfs zij hadden last van een klein probleem: de "testvragen" (de dataset) werden door de organisators (TDC) soms stiekem aangepast zonder dat er een nieuwe versie werd gemarkeerd. Het is alsof de wedstrijdcommissie halverwege de regels verandert, waardoor het moeilijk is om te zeggen wie er écht de beste is.

Wat is de les voor de toekomst?

De auteurs concluderen dat we de huidige ranglijst niet blindelings moeten vertrouwen. Het is als een sportwedstrijd waar de scheidsrechter de regels niet goed controleert en waar sommige teams de antwoorden op het bord hebben geknipt.

Hun advies voor een eerlijkere toekomst:

  1. Verborgen antwoorden: De testset moet geheim zijn (niet openbaar), zodat niemand de antwoorden kan zien voordat ze hun model bouwen.
  2. Versiebeheer: Elke dataset moet een "serienummer" hebben, zodat we precies weten welke versie van de test er gebruikt is.
  3. De robot zelf, niet alleen het resultaat: Wetenschappers moeten hun volledige programma (inclusief de omgeving waarin het draait) indienen, zodat iedereen het kan testen, in plaats van alleen een getal op een lijstje.

Kortom: De huidige ranglijst is een nuttige indicatie, maar geen garantie voor de beste medicijnen. Veel "topmodellen" zijn in feite slecht gebouwd, kunnen niet worden nagebootst, of hebben vals gespeeld. We hebben een nieuwe, strengere manier nodig om te kijken wie echt slim is en wie alleen maar goed heeft gememoriseerd.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →