Each language version is independently generated for its own context, not a direct translation.

"평균의 거짓말": AI 가 새로운 것을 배울 때 우리가 놓치고 있는 것

이 논문은 **'클래스 증분 학습 (Class Incremental Learning, CIL)'**이라는 AI 기술의 평가 방식에 숨겨진 치명적인 문제를 지적합니다. 쉽게 말해, **"AI 가 새로운 것을 배울 때, 우리가 지금까지 믿어온 '평균 점수'는 AI 의 실제 능력을 과장해서 보여주고 있다"**는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 배경: AI 는 어떻게 배울까요? (클래스 증분 학습)

상상해 보세요. 한 학생 (AI) 이 학교에 입학해서 1 학년엔 '사과'와 '배'를 배우고, 2 학년엔 '고양이'와 '개'를 배우고, 3 학년엔 '비행기'와 '자동차'를 배운다고 칩시다.
이 학생은 새로운 것을 배우면서도, 예전에 배운 '사과'나 '고양이'를 잊어버리지 않고 계속 잘 알아야 합니다. 이것이 바로 클래스 증분 학습입니다.

2. 문제: "평균"이라는 함정

지금까지 연구자들은 이 학생의 능력을 평가할 때, 무작위로 뽑은 3~4 개의 학습 순서만 시험해 보았습니다.

예시: "사과→배→고양이→개" 순서로 배운 점수, "고양이→개→사과→배" 순서로 배운 점수 등을 무작위로 뽑아 평균을 냈습니다.

하지만 여기서 문제가 발생합니다.
학습 순서 (어떤 것을 먼저 배우고 나중에 배우느냐) 에 따라 학생의 성적이 천차만별일 수 있습니다.

쉬운 순서: 비슷한 것들을 묶어서 배울 때 (예: 사과→배→복숭아→포도) → 성적 95 점
어려운 순서: 완전히 다른 것들을 섞어서 배울 때 (예: 사과→고양이→비행기→배) → 성적 60 점

기존 방식인 **'무작위 샘플링 (RS)'**은 운 좋게 '쉬운 순서'를 몇 번 뽑으면, 평균 점수가 85 점이라고 발표합니다.

"이 학생은 평균 85 점이라서 훌륭합니다!"

하지만 실제로는 가장 어려운 순서를 만나면 성적이 60 점까지 떨어질 수 있습니다. 이 학생이 실제 세상 (자율주행차 등) 에 나가서 갑자기 어려운 상황을 만나면, 치명적인 실수를 할 수 있습니다. 즉, 평균 점수는 AI 의 '최악의 상황'을 전혀 보여주지 못합니다.

3. 해결책: EDGE (극단적인 상황을 의도적으로 찾아내다)

저자들은 이 문제를 해결하기 위해 EDGE라는 새로운 평가 방식을 제안합니다.

EDGE 의 핵심 아이디어:
"무작위로 뽑는 대신, 가장 쉬운 경우와 가장 어려운 경우를 의도적으로 찾아내서 평가하자!"

어떻게 찾나요? (비유: 도서관 사서)

기존 방식: 도서관 책장 사이를 무작위로 돌아다니며 책 3 권을 뽑아보고 "이 도서관은 평균적으로 책이 잘 정리되어 있다"고 판단합니다.
EDGE 방식: 도서관 사서 (AI) 가 책의 **주제 (의미)**를 분석합니다.
- 어려운 순서 만들기: '사과'와 '배'처럼 매우 비슷한 과일을 **서로 다른 시간대 (다른 과목)**에 배치합니다. (학생이 헷갈려서 망하게 만듦)
- 쉬운 순서 만들기: '사과'와 '배'처럼 비슷한 과일을 같은 시간대에 배치합니다. (학생이 쉽게 배움)
- 중간 순서: 그냥 무작위로 하나 더 뽑습니다.

이렇게 **극단적인 상황 (가장 쉬운 것, 가장 어려운 것)**을 의도적으로 만들어서 시험해 보면, AI 의 진짜 실력 범위 (최고점과 최저점) 를 정확히 알 수 있습니다.

4. 왜 이것이 중요한가요?

이 논문의 결론은 매우 명확합니다.

평균은 거짓말쟁이다: 평균 점수만 보고 AI 를 선택하면, 실제 현장에서 예상치 못한 실패를 겪을 수 있습니다.
극단적인 상황을 봐야 한다: AI 가 '가장 힘든 상황'에서도 얼마나 견디는지 (최저 점수) 를 확인해야 진짜 튼튼한 AI 를 고를 수 있습니다.
EDGE 가 정답이다: EDGE 방식을 사용하면, 적은 수의 시험으로도 AI 의 능력 범위를 정확히 파악할 수 있어, 더 안전하고 신뢰할 수 있는 AI 시스템을 만들 수 있습니다.

요약

지금까지 우리는 AI 의 능력을 평가할 때 **"운 좋게 뽑힌 몇 가지 경우의 평균"**만 믿었습니다. 하지만 이는 마치 **"운전 면허 시험을 평탄한 도로에서 3 번만 보고 '이 운전사는 안전하다'고 판단하는 것"**과 같습니다.

이 논문은 **"가장 험한 비포장도로 (어려운 순서) 와 가장 쉬운 도로 (쉬운 순서) 를 모두 테스트해보아야 진짜 운전 실력을 알 수 있다"**고 말합니다. EDGE는 바로 그 험한 도로를 찾아내는 똑똑한 나침반 역할을 합니다.

이제 우리는 AI 를 평가할 때 "평균 점수"가 아니라, **"이 AI 가 최악의 상황에서도 버틸 수 있을까?"**를 먼저 물어보아야 합니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: THE LIE OF THE AVERAGE: HOW CLASS INCREMENTAL LEARNING EVALUATION DECEIVES YOU? (ICLR 2026)

이 논문은 클래스 증분 학습 (Class Incremental Learning, CIL) 의 기존 평가 프로토콜이 모델의 실제 성능을 왜곡하여 과장된 평균 성능을 보고할 수 있음을 지적하고, 이를 해결하기 위한 새로운 평가 프레임워크 **EDGE (Extreme case-based Distribution & Generalization Evaluation)**를 제안합니다.

1. 문제 정의 (Problem)

배경: CIL 은 모델이 새로운 클래스를 지속적으로 학습하면서도 이전에 학습한 클래스를 잊지 않고 유지해야 하는 과제입니다.
핵심 문제: 실제 세계에서는 클래스가 도착하는 순서 (Sequence) 가 다양하고 예측 불가능합니다. 모델의 성능은 클래스 도착 순서에 따라 크게 달라질 수 있습니다.
기존 평가의 한계 (RS Protocol): 현재 주류인 평가 방식인 **무작위 샘플링 (Random Sampling, RS)**은 임의로 선택된 3~5 개의 클래스 시퀀스만 테스트하여 평균과 표준편차를 계산합니다.
- 편향된 추정: 이론적 분석과 실험 결과, 소수의 무작위 샘플은 전체 성능 분포의 평균을 과대평가하고 분산을 심각하게 과소평가하는 경향이 있습니다.
- 극단적 사례 누락: 가장 쉬운 경우 (Easy) 와 가장 어려운 경우 (Hard) 를 포함하는 '극단적 시퀀스 (Extreme Sequences)'를 포착하지 못해, 실제 배포 환경에서 발생할 수 있는 심각한 성능 저하를 예측하지 못합니다.
- 결론: 평균 성능이 높다고 해서 모델이 안전하다고 판단하는 것은 위험하며, 이는 '평균의 거짓말 (The Lie of the Average)'로 불립니다.

2. 방법론 (Methodology)

저자들은 CIL 성능 분포의 특성을 분석하고, 이를 기반으로 EDGE 프로토콜을 제안합니다.

2.1 이론적 기반

조합적 폭발: 클래스 수가 $N$ 일 때 가능한 시퀀스 수는 $O(N!)$ 로 기하급수적으로 증가하여 전수 조사가 불가능합니다.
극단 시퀀스의 중요성: 무작위 샘플링만으로는 분포의 꼬리 (Tail) 를 포착하기 어렵지만, **극단적인 시퀀스 (최대/최소 성능을 보이는 경우)**를 포함하면 적은 샘플로도 전체 분포를 더 정확하게 추정할 수 있음을 수학적으로 증명했습니다 (Theorem 2).
작업 간 유사성 (Inter-task Similarity) 과 성능의 상관관계:
- 인접한 작업 (Task) 간의 유사도가 낮을수록 (서로 다른 클래스가 연속적으로 등장할 때) 모델의 일반화 오차가 커지고 성능이 저하됩니다.
- 반대로, 유사도가 높을수록 (비슷한 클래스가 같은 작업에 묶이거나 연속적으로 등장할 때) 성능이 향상됩니다.
- 이는 Theorem 3을 통해 이론적으로 뒷받침되었으며, 실험적으로도 강한 양의 상관관계가 확인되었습니다.

2.2 EDGE 프로토콜 알고리즘

EDGE 는 작업 간 유사성을 활용하여 대표성 있는 세 가지 시퀀스를 적응적으로 생성합니다.

클래스 임베딩 생성: 사전 훈련된 CLIP 모델의 텍스트 인코더를 사용하여 클래스 레이블 (텍스트) 을 벡터로 변환합니다. (이미지 접근 없이 텍스트만으로 유사성 계산 가능)
유사도 행렬 구성: 클래스 간 코사인 유사도를 계산하여 대칭 행렬을 만듭니다.
극단 시퀀스 생성:
- 어려운 시퀀스 (Hard Sequence): 작업 간 유사도를 최소화하도록 클래스를 그룹화하고 순서를 정합니다. (서로 다른 유사한 클래스들이 연속적으로 등장하도록 설계)
- 쉬운 시퀀스 (Easy Sequence): 작업 간 유사도를 최대화하도록 클래스를 그룹화하고 순서를 정합니다. (비슷한 클래스들이 같은 작업이나 연속적으로 등장하도록 설계)
- 중간 시퀀스 (Medium Sequence): 무작위로 샘플링된 시퀀스.
평가 및 추정: 이 세 가지 시퀀스에서의 모델 성능을 측정하여 평균과 분산을 계산함으로써, 실제 성능 분포의 경계 (Bounds) 를 더 정확하게 추정합니다.

3. 주요 기여 (Key Contributions)

평가 프로토콜의 체계적 분석: 기존 RS 프로토콜이 성능 분포를 왜곡하여 편향된 평균과 과소평가된 분산을 제공함을 이론적, 실험적으로 증명했습니다.
EDGE 프레임워크 제안: 작업 간 유사성을 기반으로 적응적으로 극단 시퀀스를 식별하고 샘플링하는 새로운 평가 프레임워크를 개발했습니다.
정확한 분포 추정 및 모델 선택 지원: 다양한 실험을 통해 EDGE 가 RS 보다 실제 성능 분포의 경계 (최대/최소) 를 더 정확하게 포착하며, 모델의 강건성 (Robustness) 과 worst-case 성능을 평가하는 데 필수적임을 입증했습니다.

4. 실험 결과 (Results)

전수 조사 가능한 환경 (Enumerables Experiments): CIFAR-100 과 ImageNet-R 의 소규모 하위 집합 (6 클래스, 3 작업) 에서 가능한 모든 90 가지 시퀀스를 평가하여 'Ground Truth'를 확보했습니다.
- 결과: EDGE 는 RS 에 비해 **Jensen-Shannon Divergence (JSD)**와 Wasserstein Distance가 현저히 낮아, 실제 분포를 훨씬 더 잘 근사했습니다.
- 편향 교정: RS 는 모델의 최저 성능 (Lower Bound) 을 과대평가하는 경향이 있었으나, EDGE 는 이를 정확히 포착하여 모델 간 비교의 공정성을 높였습니다.
대규모 벤치마크 (Classic CIL Settings): CIFAR-100, CUB-200, ImageNet-R 에서 다양한 CIL 방법론 (Pre-trained 및 Non-pre-trained) 을 평가했습니다.
- EDGE 는 RS 가 놓친 극단적인 성능 저하 사례를 발견하여 모델의 실제 배포 위험을 예측할 수 있게 했습니다.
- 특히, 일부 모델은 RS 기준으로는 우수해 보이지만 EDGE 기준으로는 worst-case 성능이 매우 낮아, 실제 적용 시 주의가 필요함을 보여주었습니다.
강건성: 다양한 백본 (ResNet, ViT) 과 CLIP 인코더 크기에서도 EDGE 의 성능 추정 정확도가 유지되었습니다.

5. 의의 및 결론 (Significance)

평가 패러다임의 전환: CIL 평가는 단일 점수 (평균) 가 아닌 **성능 분포 (Distribution)**를 고려해야 함을 강조합니다.
실용적 가치: EDGE 는 실제 세계의 불확실한 클래스 도착 순서에 대비하여 모델의 **최악의 경우 (Worst-case)**와 **최상의 경우 (Best-case)**를 모두 평가할 수 있게 합니다.
모델 설계에 대한 통찰: 특정 시퀀스 유형에서 성능이 급격히 저하되는 패턴을 분석함으로써, 향후 CIL 알고리즘의 구조적 약점을 파악하고 강건한 모델을 설계하는 데 기여합니다.
오픈소스: 제안된 EDGE 프로토콜과 코드는 공개되어 연구자들이 기존 RS 프로토콜과 함께 사용하여 더 신뢰할 수 있는 평가를 수행할 수 있도록 지원하고 있습니다.

요약하자면, 이 논문은 "평균 성능"이라는 환상에 의존하는 기존 CIL 평가의 위험성을 지적하고, 작업 간 유사성을 기반으로 극단적인 시나리오를 포착하는 EDGE 프로토콜을 통해 더 신뢰할 수 있고 현실적인 모델 평가 체계를 제시합니다.

The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?

"평균의 거짓말": AI 가 새로운 것을 배울 때 우리가 놓치고 있는 것

1. 배경: AI 는 어떻게 배울까요? (클래스 증분 학습)

2. 문제: "평균"이라는 함정

3. 해결책: EDGE (극단적인 상황을 의도적으로 찾아내다)

4. 왜 이것이 중요한가요?

요약

논문 요약: THE LIE OF THE AVERAGE: HOW CLASS INCREMENTAL LEARNING EVALUATION DECEIVES YOU? (ICLR 2026)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 이론적 기반

2.2 EDGE 프로토콜 알고리즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models