The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?

Dit paper introduceert EDGE, een nieuw evaluatieprotocol voor Class Incremental Learning dat de beperkingen van traditionele gemiddelde-metingen overbrugt door adaptief extreme klassequenties te identificeren op basis van inter-taakgelijkenis, waardoor een nauwkeuriger beeld van de prestatieverdeling en robuustheid wordt verkregen.

Guannan Lai, Da-Wei Zhou, Xin Yang, Han-Jia Ye

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Leugen van het Gemiddelde: Waarom je niet kunt vertrouwen op de "gemiddelde" prestatie van een AI

Stel je voor dat je een nieuwe auto koopt. De verkoper zegt: "Deze auto heeft een gemiddelde topsnelheid van 200 km/u!" Dat klinkt geweldig, toch? Maar wat hij niet vertelt, is dat de auto op een rechte weg 250 km/u haalt, maar op een hobbelige weg met veel bochten maar 50 km/u kan rijden en dan stopt. Als je die auto koopt voor een ritje door de stad, zit je vast.

Dit is precies het probleem dat deze paper beschrijft voor Class Incremental Learning (CIL). Dat is een manier om kunstmatige intelligentie (AI) te leren, waarbij de AI nieuwe dingen moet leren zonder de oude te vergeten.

Hier is de uitleg in simpele taal:

1. Het Probleem: De "Gemiddelde" Leugen

Tot nu toe keken onderzoekers naar hoe goed een AI-model presteert door te kijken naar gemiddelden. Ze laten de AI een paar keer trainen met willekeurig gekozen volgorde van nieuwe onderwerpen (bijvoorbeeld: eerst leert hij auto's, dan bomen, dan katten) en nemen het gemiddelde van die resultaten.

De auteurs van dit paper zeggen: "Dit is een leugen!"

  • De realiteit: De volgorde waarin de AI nieuwe dingen leert, is cruciaal. Als je eerst heel moeilijke, op elkaar lijkende dingen leert (bijvoorbeeld eerst een appel, dan een peer, dan een perzik), kan de AI in de war raken en slecht presteren. Als je eerst makkelijke, verschillende dingen leert (een appel, dan een auto, dan een hond), gaat het veel beter.
  • De leugen: Omdat er zo ontzettend veel mogelijke volgorde zijn (meer dan het aantal atomen in het universum), kunnen onderzoekers ze niet allemaal testen. Dus nemen ze er maar een paar willekeurige (bijvoorbeeld 3) en rekenen het gemiddelde uit.
  • Het gevolg: Ze denken dat een model heel veilig is (gemiddeld 85% goed), terwijl het in de ergste situatie (een specifieke, ongelukkige volgorde) misschien maar 70% goed doet. In de echte wereld (zoals een zelfrijdende auto) kan die 15% verschil leiden tot een ongeluk.

2. De Oplossing: EDGE (De "Uiterste" Test)

De auteurs hebben een nieuwe manier bedacht om AI te testen, genaamd EDGE.

In plaats van willekeurig te kiezen, proberen ze met EDGE de uiterste gevallen te vinden:

  1. De "Makkelijke" route: Een volgorde waarbij de AI het allerbeste doet.
  2. De "Moeilijke" route: Een volgorde waarbij de AI het allerminst goed doet.
  3. De "Gemiddelde" route: Een normaal geval.

Hoe vinden ze deze routes?
Ze gebruiken een slimme truc. Ze kijken niet naar de foto's zelf, maar naar de namen van de dingen (bijv. "appel" en "peer"). Ze gebruiken een taalmodel (CLIP) om te zien hoe veel op elkaar de woorden lijken.

  • Als "appel" en "peer" heel veel op elkaar lijken, proberen ze die twee in dezelfde les te stoppen voor de AI. Dat maakt het heel moeilijk voor de AI (de "moeilijke" route).
  • Als ze "appel" en "auto" in dezelfde les stoppen, is dat makkelijk voor de AI (de "makkelijke" route).

3. Een Leuk Voorbeeld: De Boodschappenlijst

Stel je voor dat je een kok bent die nieuwe recepten moet leren.

  • De oude manier (Random Sampling): Je kiest 3 willekeurige dagen om te koken. Misschien heb je geluk en zijn het makkelijke dagen. Je zegt: "Ik ben een topkok!"
  • De nieuwe manier (EDGE): Je zegt: "Laten we kijken wat er gebeurt als ik alle ingrediënten die op elkaar lijken (zoals 5 soorten kaas) op één dag probeer te koken." Dat is je "moeilijke dag". En dan kijken we wat er gebeurt als je alle ingrediënten die totaal verschillend zijn (kaas, vis, bloemen) op één dag doet. Dat is je "makkelijke dag".

Door deze uiterste dagen te testen, weet je echt hoe goed de kok is. Je weet dat hij op zijn slechtste dag nog steeds eetbaar eten maakt, of dat hij op zijn beste dag een Michelin-ster verdient.

4. Waarom is dit belangrijk?

Dit paper is een waarschuwing voor de wereld van AI-onderzoek.

  • Voor onderzoekers: Stop met alleen het gemiddelde te rapporteren. Dat is misleidend. Je moet kijken naar de grenzen (hoe slecht kan het gaan?).
  • Voor de praktijk: Als je een AI wilt gebruiken in de echte wereld (zoals in een ziekenhuis of een auto), wil je weten of hij faalt in de ergste situaties. EDGE helpt je die "zwakke plekken" te vinden voordat het te laat is.

Kortom:
De paper zegt: "Vertrouw niet op het gemiddelde. Kijk naar de uitersten." Net zoals je niet op een auto vertrouwt die alleen goed rijdt op een racebaan, moet je niet op een AI vertrouwen die alleen goed werkt als je geluk hebt met de volgorde van de lessen. Met EDGE kunnen we nu de echte, robuuste prestaties van een AI zien.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →