The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?

Each language version is independently generated for its own context, not a direct translation.

De Leugen van het Gemiddelde: Waarom je niet kunt vertrouwen op de "gemiddelde" prestatie van een AI

Stel je voor dat je een nieuwe auto koopt. De verkoper zegt: "Deze auto heeft een gemiddelde topsnelheid van 200 km/u!" Dat klinkt geweldig, toch? Maar wat hij niet vertelt, is dat de auto op een rechte weg 250 km/u haalt, maar op een hobbelige weg met veel bochten maar 50 km/u kan rijden en dan stopt. Als je die auto koopt voor een ritje door de stad, zit je vast.

Dit is precies het probleem dat deze paper beschrijft voor Class Incremental Learning (CIL). Dat is een manier om kunstmatige intelligentie (AI) te leren, waarbij de AI nieuwe dingen moet leren zonder de oude te vergeten.

Hier is de uitleg in simpele taal:

1. Het Probleem: De "Gemiddelde" Leugen

Tot nu toe keken onderzoekers naar hoe goed een AI-model presteert door te kijken naar gemiddelden. Ze laten de AI een paar keer trainen met willekeurig gekozen volgorde van nieuwe onderwerpen (bijvoorbeeld: eerst leert hij auto's, dan bomen, dan katten) en nemen het gemiddelde van die resultaten.

De auteurs van dit paper zeggen: "Dit is een leugen!"

De realiteit: De volgorde waarin de AI nieuwe dingen leert, is cruciaal. Als je eerst heel moeilijke, op elkaar lijkende dingen leert (bijvoorbeeld eerst een appel, dan een peer, dan een perzik), kan de AI in de war raken en slecht presteren. Als je eerst makkelijke, verschillende dingen leert (een appel, dan een auto, dan een hond), gaat het veel beter.
De leugen: Omdat er zo ontzettend veel mogelijke volgorde zijn (meer dan het aantal atomen in het universum), kunnen onderzoekers ze niet allemaal testen. Dus nemen ze er maar een paar willekeurige (bijvoorbeeld 3) en rekenen het gemiddelde uit.
Het gevolg: Ze denken dat een model heel veilig is (gemiddeld 85% goed), terwijl het in de ergste situatie (een specifieke, ongelukkige volgorde) misschien maar 70% goed doet. In de echte wereld (zoals een zelfrijdende auto) kan die 15% verschil leiden tot een ongeluk.

2. De Oplossing: EDGE (De "Uiterste" Test)

De auteurs hebben een nieuwe manier bedacht om AI te testen, genaamd EDGE.

In plaats van willekeurig te kiezen, proberen ze met EDGE de uiterste gevallen te vinden:

De "Makkelijke" route: Een volgorde waarbij de AI het allerbeste doet.
De "Moeilijke" route: Een volgorde waarbij de AI het allerminst goed doet.
De "Gemiddelde" route: Een normaal geval.

Hoe vinden ze deze routes?
Ze gebruiken een slimme truc. Ze kijken niet naar de foto's zelf, maar naar de namen van de dingen (bijv. "appel" en "peer"). Ze gebruiken een taalmodel (CLIP) om te zien hoe veel op elkaar de woorden lijken.

Als "appel" en "peer" heel veel op elkaar lijken, proberen ze die twee in dezelfde les te stoppen voor de AI. Dat maakt het heel moeilijk voor de AI (de "moeilijke" route).
Als ze "appel" en "auto" in dezelfde les stoppen, is dat makkelijk voor de AI (de "makkelijke" route).

3. Een Leuk Voorbeeld: De Boodschappenlijst

Stel je voor dat je een kok bent die nieuwe recepten moet leren.

De oude manier (Random Sampling): Je kiest 3 willekeurige dagen om te koken. Misschien heb je geluk en zijn het makkelijke dagen. Je zegt: "Ik ben een topkok!"
De nieuwe manier (EDGE): Je zegt: "Laten we kijken wat er gebeurt als ik alle ingrediënten die op elkaar lijken (zoals 5 soorten kaas) op één dag probeer te koken." Dat is je "moeilijke dag". En dan kijken we wat er gebeurt als je alle ingrediënten die totaal verschillend zijn (kaas, vis, bloemen) op één dag doet. Dat is je "makkelijke dag".

Door deze uiterste dagen te testen, weet je echt hoe goed de kok is. Je weet dat hij op zijn slechtste dag nog steeds eetbaar eten maakt, of dat hij op zijn beste dag een Michelin-ster verdient.

4. Waarom is dit belangrijk?

Dit paper is een waarschuwing voor de wereld van AI-onderzoek.

Voor onderzoekers: Stop met alleen het gemiddelde te rapporteren. Dat is misleidend. Je moet kijken naar de grenzen (hoe slecht kan het gaan?).
Voor de praktijk: Als je een AI wilt gebruiken in de echte wereld (zoals in een ziekenhuis of een auto), wil je weten of hij faalt in de ergste situaties. EDGE helpt je die "zwakke plekken" te vinden voordat het te laat is.

Kortom:
De paper zegt: "Vertrouw niet op het gemiddelde. Kijk naar de uitersten." Net zoals je niet op een auto vertrouwt die alleen goed rijdt op een racebaan, moet je niet op een AI vertrouwen die alleen goed werkt als je geluk hebt met de volgorde van de lessen. Met EDGE kunnen we nu de echte, robuuste prestaties van een AI zien.

Each language version is independently generated for its own context, not a direct translation.

Titel: THE LIE OF THE AVERAGE: HOE CLASS INCREMENTAL LEARNING EVALUATIE JE BEDRIEGT?

Conferentie: ICLR 2026
Auteurs: Guannan Lai, Da-Wei Zhou, Xin Yang, Han-Jia Ye (Nanjing University & Southwestern University of Finance and Economics)

1. Het Probleem: De Valstrik van Gemiddelde Evaluatie

Class Incremental Learning (CIL) vereist dat modellen nieuwe klassen leren zonder de eerder geleerde kennis te vergeten (catastrophic forgetting). Een cruciaal, maar vaak verwaarloosd aspect is de evaluatieprotocol.

Huidige Praktijk (Random Sampling - RS): De meeste bestaande protocollen evalueren modellen op slechts 3 tot 5 willekeurig gegenereerde volgordes van klassen. Ze rapporteren vervolgens het gemiddelde en de standaarddeviatie van deze steekproef.
Het Fundamentele Gebrek: De prestaties van CIL-modellen zijn extreem gevoelig voor de volgorde waarin klassen verschijnen. De ruimte van mogelijke volgordes groeit factorieel met het aantal klassen ( $O(N!)$ ), wat een volledige evaluatie onmogelijk maakt.
De Conclusie van de auteurs: Het gebruik van slechts een paar willekeurige volgordes leidt tot:
1. Vooroordeel in het gemiddelde: Het geschatte gemiddelde is vaak te optimistisch.
2. Onderschatting van variantie: De werkelijke spreiding van prestaties wordt ernstig onderschat.
3. Misleidende conclusies: Een model dat er goed uitziet op basis van het gemiddelde, kan in de praktijk (bij een "slechte" volgorde) volledig falen. Dit wordt geïllustreerd in Figuur 1, waar een model met een gemiddelde van 85% in het ergste geval slechts 70% haalt.

2. Methodologie: EDGE Protocol

Om dit probleem op te lossen, stellen de auteurs EDGE (Extreme case-based Distribution & Generalization Evaluation) voor. In plaats van willekeurig te zagen, probeert EDGE de volledige prestatieverdeling te benaderen door specifieke, informatieve volgordes te selecteren.

Theoretische Basis

Extreme Sequences: De auteurs bewijzen theoretisch dat het opnemen van de "eenvoudigste" en "moeilijkste" volgordes (extreme cases) de benodigde steekproefgrootte om de ware verdeling te schatten drastisch verlaagt vergeleken met puur willekeurige sampling.
Inter-task Similariteit: Er is een sterke positieve correlatie gevonden tussen de semantische gelijkenis van opeenvolgende taken en de modelprestaties.
- Hoge similariteit tussen opeenvolgende taken $\rightarrow$ Lagere generalisatiefout (makkelijkere scenario).
- Lage similariteit tussen opeenvolgende taken $\rightarrow$ Hogere generalisatiefout (moeilijkere scenario, meer vergeten).

Het EDGE Algorithm

EDGE gebruikt een pre-getrainde CLIP (Contrastive Language-Image Pre-training) tekst-encoder om de semantische gelijkenis tussen klassen te berekenen zonder toegang tot de daadwerkelijke afbeeldingen.

Similariteitsmatrix: Klassen worden omgezet in tekstuele embeddings via CLIP. Een similariteitsmatrix wordt berekend op basis van cosine similarity.
Generatie van Extreme Sequences:
- Moeilijke Sequence (Hard): Klassen met hoge semantische gelijkenis worden gegroepeerd in dezelfde taken, terwijl opeenvolgende taken zo verschillend mogelijk worden gemaakt (minimalisatie van inter-task similariteit). Dit simuleert een scenario met veel vergeten.
- Eenvoudige Sequence (Easy): Gelijkaardige klassen worden verspreid over verschillende taken, en opeenvolgende taken zijn zo gelijkaardig mogelijk (maximalisatie van inter-task similariteit). Dit simuleert een gunstig scenario.
- Medium Sequence: Een willekeurig gegenereerde volgorde dient als referentie voor het midden van de verdeling.
Evaluatie: Het model wordt getest op deze drie specifieke volgordes. Het gemiddelde en de variantie van deze drie punten worden gebruikt om de onder- en bovengrenzen van de prestatieverdeling te schatten.

3. Belangrijkste Bijdragen

Kritische Analyse van RS: Een systematisch bewijs (theoretisch en empirisch) dat het standaard Random Sampling protocol leidt tot vertekende schattingen en de robuustheid van CIL-modellen verkeerd voorstelt.
EDGE Framework: De introductie van een nieuw evaluatieprotocol dat adaptief extreme volgordes identificeert op basis van inter-task similariteit, waardoor een veel nauwkeurigere benadering van de "ground-truth" prestatieverdeling wordt verkregen.
Empirische Validatie: Uitgebreide experimenten tonen aan dat EDGE beter in staat is om extreme prestaties (zowel beste als slechtste geval) te vangen dan RS, wat leidt tot eerlijkere modelvergelijkingen.

4. Resultaten

De auteurs hebben experimenten uitgevoerd op CIFAR-100, ImageNet-R en CUB-200, met zowel niet-voorgeprogrammeerde (bijv. EWC, DER, iCaRL) als voorgeprogrammeerde methoden (bijv. L2P, CODA-Prompt, RanPAC).

Nauwkeurigheid van Verdelingsbenadering:
- EDGE levert schattingen van de prestatiegrenzen die significant dichter bij de waarheid liggen (ground-truth) dan RS.
- De Jensen-Shannon Divergentie (JSD) en Wasserstein Distance tussen de geschatte verdeling en de ware verdeling zijn bij EDGE aanzienlijk lager dan bij RS.
Fairness in Vergelijking:
- RS kan leiden tot onjuiste rangschikkingen. Bijvoorbeeld, een model dat door RS als beter wordt bestempeld, kan onder EDGE een veel slechtere ondergrens blijken te hebben.
- EDGE onthult dat sommige methoden onder extreme omstandigheden convergeren naar vergelijkbare (slechte) ondergrenzen, wat suggereert dat de taakmoeilijkheid een grotere bottleneck is dan het modelarchitectuurverschil.
Robuustheid: EDGE presteert consistent goed over verschillende backbone-architecturen (ResNet, ViT) en CLIP-encoder groottes.

5. Betekenis en Impact

Deze paper heeft een fundamentele impact op hoe Class Incremental Learning wordt geëvalueerd en vergeleken:

Van Punt- naar Verdelingsevaluatie: Het paper verschuift de focus van een enkel "gemiddeld" cijfer naar het begrijpen van de volledige prestatieverdeling, inclusief de risico's van extreme gevallen.
Realistische Deployments: Voor toepassingen zoals autonoom rijden, waar de volgorde van nieuwe objectklassen onvoorspelbaar is, is het kennen van de ondergrens (worst-case) cruciaal voor veiligheid. EDGE biedt inzicht in deze ondergrens.
Richting voor Toekomstig Onderzoek: Het stelt onderzoekers in staat om zwakke plekken in hun modellen te identificeren (bijv. welke soorten volgordes leiden tot falen) en biedt een robuustere basis voor het selecteren van modellen voor productieomgevingen.

Kortom, EDGE biedt een goedkope, efficiënte en theoretisch onderbouwde manier om de "leugen van het gemiddelde" te doorbreken en de echte robuustheid van CIL-modellen te testen. De code is openbaar beschikbaar.

The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?

1. Het Probleem: De "Gemiddelde" Leugen

2. De Oplossing: EDGE (De "Uiterste" Test)

3. Een Leuk Voorbeeld: De Boodschappenlijst

4. Waarom is dit belangrijk?

Titel: THE LIE OF THE AVERAGE: HOE CLASS INCREMENTAL LEARNING EVALUATIE JE BEDRIEGT?

1. Het Probleem: De Valstrik van Gemiddelde Evaluatie

2. Methodologie: EDGE Protocol

Theoretische Basis

Het EDGE Algorithm

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models