Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing

Dit artikel analyseert SIGIR 2022-papers over aanbevelingssystemen op basis van berichtoverdracht en onthult ernstige problemen met reproduceerbaarheid, zoals datalekken en inconsistenties tussen code en beschrijvingen, waardoor de geldigheid van de meeste claims niet kan worden bevestigd.

Maurizio Ferrari Dacrema, Michael Benigni, Nicola Ferro

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wereld van aanbevelingssystemen (zoals die van Netflix of Amazon) een enorme, drukke markt is waar wetenschappers hun nieuwste uitvindingen tentoonstellen. Ze zeggen: "Kijk, mijn nieuwe algoritme is de beste! Het kan precies voorspellen wat je wilt kopen of kijken."

Drie onderzoekers uit Italië en Nederland hebben besloten om deze markt eens flink op te ruimen. Ze hebben gekeken naar tien van de meest geprezen artikelen uit 2022, waarin deze "super-algoritmes" werden gepresenteerd. Hun missie? Kijken of deze uitvindingen echt werken, of dat het misschien wel een beetje bedrog is.

Hier is wat ze hebben ontdekt, vertaald in simpele taal:

1. De "Recepten" zijn verward (Artifacts & Consistentie)

Stel je voor dat een chef-kok een recept publiceert voor de beste taart ter wereld. Hij zegt: "Gebruik 200 gram suiker en bak het 30 minuten." Maar als je het recept in de praktijk brengt, blijkt dat hij in de echte taart 300 gram suiker heeft gebruikt en dat hij het recept op een andere manier heeft opgeschreven dan in de tekst staat.

In dit onderzoek vonden de auteurs precies dit. Veel wetenschappers gaven hun "recepten" (de computercode en de data) wel vrij, maar:

  • De code klopte niet met de tekst: Soms stond er in het artikel dat ze een bepaalde methode gebruikten, maar in de code deden ze iets heel anders.
  • Verkeerde data-splits: Dit is als het koken van een taart waarbij je de suiker uit de taart zelf haalt om te proeven of hij zoet genoeg is. In de wereld van aanbevelingen betekent dit dat ze soms data uit de "testfase" (de proef) per ongeluk in de "trainingsfase" (het leren) hebben gebruikt. Hierdoor leken de algoritmes veel slimmer te zijn dan ze echt waren, omdat ze al het antwoord hadden gezien voordat ze begonnen.

2. De "Racers" zijn langzaam (Reproducibility)

De onderzoekers probeerden de recepten van de andere wetenschappers na te maken. Het resultaat?

  • Slechts de helft van de resultaten kon daadwerkelijk worden nagebootst.
  • Bij sommige artikelen was het resultaat 0% hetzelfde. Het was alsof je probeert een auto na te bouwen op basis van een tekening, maar de wielen vallen er steeds af.
  • Vaak was de code zo slecht gedocumenteerd dat het een raadsel was hoe je het überhaupt moest draaien. Het was alsof ze een auto leverden zonder handleiding en met losse bouten.

3. De "Nieuwe Auto's" zijn trager dan de "Oude Fietsen" (Baselines)

Dit is misschien wel het meest verbluffende deel. De wetenschappers hadden nieuwe, complexe, dure "raceauto's" (de nieuwe Graph Neural Networks) gebouwd. Ze beweerden dat deze veel sneller waren dan de oude, simpele "fietsen" (de klassieke, simpele methodes).

Maar toen de onderzoekers de race daadwerkelijk lieten plaatsvinden, gebeurde er iets vreemds:

  • De oude fietsen (simpele methodes) bleken vaak veel sneller te zijn dan de dure raceauto's.
  • Vooral op een populaire dataset (Amazon-Boeken) waren de nieuwe methodes soms twee keer zo traag als de simpele methodes.
  • Het leek alsof de raceauto's waren ontworpen om op een circuit te rijden, maar ze werden getest op een modderpad waar de fietsen gewoon beter werkten.

4. Waarom gebeurt dit? (De "Leiderschapsjacht")

Waarom doen wetenschappers dit dan? Het is alsof er een grote competitie is waar je alleen wint als je de hoogste score haalt op een specifieke lijst.

  • Om die lijst te winnen, kiezen ze soms onbewust voor methodes die "moeilijk" lijken, maar die ze niet goed hebben afgesteld.
  • Ze vergelijken hun nieuwe auto met een fiets die ook niet goed is afgesteld. Dan lijkt je nieuwe auto een winnaar, terwijl hij in werkelijkheid slecht is.
  • Omdat de "standaard" (de basis) zo zwak is, hoeven ze hun eigen uitvindingen niet echt te verbeteren. Ze winnen de competitie, maar de wetenschap als geheel komt niet vooruit.

5. De impact op de toekomst

Het ergste is dat andere wetenschappers, die in 2023 nieuwe artikelen schreven, deze "defecte" raceauto's als uitgangspunt namen. Ze bouwden hun eigen uitvindingen op basis van fouten.

  • Het is alsof je een nieuw huis bouwt op een fundering die al scheef staat.
  • Door de verschillende manieren waarop iedereen hun data voorbereidt (soms met 10% training, soms met 20%, soms met andere regels), is het onmogelijk om te vergelijken of iemand echt een betere uitvinding heeft gedaan. Het is alsof iedereen een andere meetlat gebruikt.

Conclusie: De boodschap

De onderzoekers zeggen: "Stop met het bouwen van complexe kastelen op zand."
Ze pleiten voor:

  1. Eerlijkheid: Geef precies aan hoe je data hebt gesplitst en welke code je gebruikt.
  2. Echte tests: Vergelijk je nieuwe uitvinding met de beste, goed afgestelde oude methodes, niet met zwakke versies.
  3. Simpel is soms beter: Soms is een simpele fiets beter dan een ingewikkelde raceauto die niet goed werkt.
  4. Negatieve resultaten: Het is oké om te zeggen: "Mijn uitvinding werkt niet goed op dit specifieke probleem." Dat helpt de wetenschap meer dan een nep-overwinning.

Kortom: De wereld van aanbevelingssystemen zit vol met mooie verhalen en complexe formules, maar als je de deksel eraf haalt, blijkt de motor vaak niet te werken. Het is tijd om terug te gaan naar de basis, eerlijk te zijn en te zorgen dat de resultaten echt kloppen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →