Revisiting Autoregressive Models for Generative Image Classification

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지를 분류하는 AI 가 어떻게 더 똑똑하고 빠르게 될 수 있을까?"**라는 질문에 대한 새로운 해법을 제시합니다.

기존의 AI 는 이미지를 볼 때 마치 한 줄의 글자를 왼쪽에서 오른쪽으로, 위에서 아래로만 읽는 사람처럼 행동했습니다. 하지만 이 연구팀은 "왜 꼭 그 순서대로만 읽어야 하지? 다른 순서로 읽으면 더 잘 이해할 수 있지 않을까?"라고 생각했고, 그 결과 기존 방식보다 훨씬 정확하고 빠른 새로운 AI를 만들었습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제점: "한 줄로만 읽는 AI 의 한계"

과거의 생성형 AI(이미지를 만드는 AI) 는 이미지를 분류할 때 고정된 순서를 따랐습니다.

비유: 마치 책을 읽을 때 반드시 첫 페이지부터 마지막 페이지까지, 한 줄씩만 읽는 사람이라고 상상해 보세요.
문제: 만약 책의 중간에 있는 중요한 단어가 빠지거나, 뒷부분의 맥락이 앞부분과 달라지면 그 사람은 내용을 잘못 이해할 수 있습니다. AI 도 마찬가지입니다. 이미지의 특정 부분만 보고 "이건 개야, 고양이야?"를 결정하다 보면 실수를 자주 합니다.

2. 해결책: "여러 각도에서 보는 '랜덤 독서' 전략"

연구팀은 이 문제를 해결하기 위해 **랜덤 순서 (Any-order)**로 이미지를 읽는 AI 를 도입했습니다.

비유: 이제 그 사람이 책을 읽을 때, 매번 다른 순서로 읽는다고 상상해 보세요.
- 1 회차: 앞장부터 읽음.
- 2 회차: 뒷장부터 읽음.
- 3 회차: 중간 장부터 시작해서 앞뒤로 오가며 읽음.
- ...이렇게 20 번 정도 다른 순서로 책을 읽은 뒤, 모든 내용을 종합해서 결론을 내립니다.

이렇게 여러 번 다른 각도에서 정보를 모으면, 한 번의 읽기만으로는 놓쳤던 중요한 단서 (예: 동물의 귀 모양, 배경의 특징 등) 를 놓치지 않게 됩니다.

3. 핵심 기술: "여러 번 읽어서 평균 내기"

이 논문에서 제안한 핵심 아이디어는 "순서 무관 (Order-marginalized)" 예측입니다.

비유: 시험 문제를 풀 때, 정답을 맞추기 위해 한 번만 풀지 않고, 20 번 다른 방식으로 문제를 풀어본 뒤 가장 많이 나온 정답을 선택하는 것과 같습니다.
효과: 이렇게 하면 AI 는 이미지의 전체적인 맥락을 훨씬 더 잘 파악하게 되어, **어떤 물체인지 정확히 맞히는 능력 (분류 정확도)**이 비약적으로 상승합니다.

4. 놀라운 성과: "스피드와 정확도의 두 마리 토끼"

기존에 가장 성능이 좋다고 알려진 **확산 모델 (Diffusion Model, DM)**이라는 AI 는 이미지를 분류할 때 매우 느립니다.

비유: 확산 모델은 정답을 맞추기 위해 200 번이나 천천히 그림을 그려보며 정답을 유추합니다. (매우 정확하지만 시간이 오래 걸림)
새로운 AI (이 논문의 방법): 이 새로운 방법은 단 20 번만 빠르게 읽어도 확산 모델보다 더 정확합니다.
결과: 기존 최고 성능 AI 보다 25 배나 빠르면서도, 오히려 더 정확하게 이미지를 분류했습니다.

5. 왜 중요한가요?

더 똑똑한 AI: 단순히 이미지를 분류하는 것을 넘어, 이미지의 '모양'과 '구조'를 인간처럼 더 잘 이해하게 되었습니다. (예: 털이 많은 동물 vs 털이 없는 동물 구분)
빠른 속도: 스마트폰이나 실시간 카메라 같은 곳에서 AI 를 쓸 때, 이 방식은 훨씬 적은 전력과 시간으로 작동할 수 있어 실용적입니다.
새로운 가능성: "이미지를 만드는 AI"가 "이미지를 분류하는 AI"로도 훌륭하게 쓸 수 있음을 증명했습니다.

요약

이 논문은 **"AI 가 이미지를 볼 때, 고정된 순서대로만 보지 말고 여러 가지 다른 순서로 골고루 보게 하면 훨씬 똑똑해진다"**는 사실을 발견했습니다. 마치 여러 친구가 각자 다른 순서로 책을 읽고 토론하면, 한 사람이 읽는 것보다 훨씬 정확한 결론을 내릴 수 있는 것과 같습니다.

이 방법은 기존에 가장 느렸던 AI 보다 25 배나 빠르면서도 더 정확해서, 앞으로 우리가 사용하는 카메라, 의료 영상 분석, 자율주행차 등 다양한 곳에 적용될 수 있는 획기적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 생성 모델 (Generative Models, GMs) 은 이미지 생성뿐만 아니라 분류 (Classification) 작업에서도 강력한 성능을 보여주고 있습니다. 특히 확산 모델 (Diffusion Models, DMs) 은 기존 자기회귀 (Autoregressive, AR) 모델보다 우수한 분류 성능과 강건성을 보여주며, 생성적 분류기 (Generative Classifiers, GCs) 의 새로운 표준으로 자리 잡았습니다.

그러나 기존 AR 기반 생성적 분류기 접근법에는 중요한 한계가 존재했습니다:

고정된 토큰 순서의 의존성: 기존 AR 모델은 이미지 생성 시 고정된 토큰 순서 (예: 래스터 스캔 방식, 왼쪽에서 오른쪽, 위에서 아래) 에 의존합니다.
제한적인 유도 편향 (Inductive Bias): 이 고정된 순서는 모델이 이미지의 특정 부분에만 의존하여 판단하도록 유도하여, 이미지의 전체적인 맥락을 이해하는 데 제약을 줍니다.
성능 격차: 고정된 순서를 사용하는 AR 모델은 확산 모델보다 분류 성능이 낮아, 생성적 분류 분야에서 상대적으로 소외되어 왔습니다.

2. 방법론 (Methodology)

저자들은 AR 모델의 성능 한계를 극복하기 위해 임의의 토큰 순서 (Any-order) 를 지원하는 최신 AR 모델인 RandAR를 활용하고, 이를 기반으로 순서 마진화 (Order-marginalized) 된 예측 방식을 제안합니다.

핵심 아이디어

토큰 순서의 영향: 단일 토큰 순서로 예측할 경우 모델은 이미지의 일부 부분 (국소적 특징) 에만 의존할 수 있지만, 여러 토큰 순서에 대한 예측을 평균화하면 이미지의 더 포괄적인 맥락 정보를 활용할 수 있습니다.
순서 마진화 (Order-marginalization):
1. 임의 순서 생성: 입력 이미지를 토큰화한 후, 토큰들의 순서를 무작위로 섞은 $K$ 개의 시퀀스를 생성합니다.
2. 조건부 로그 가능도 추정: 각 순서 $\pi_k$ 와 클래스 $c_i$ 에 대해 로그 가능도 $\log p(x|\pi_k, c_i)$ 를 계산합니다.
3. 하한 (Lower Bound) 추정: 실제 순서 무조건부 로그 가능도 $\log p(x|c)$ 를 추정하기 위해, 쥬ensen 부등식을 적용하여 $K$ 개의 순서에 대한 로그 가능도의 평균을 하한 (Lower Bound) 으로 사용합니다.
  $\log p(x|c) \geq \mathbb{E}_{\pi} [\log p(x|\pi, c)] \approx \frac{1}{K} \sum_{k=1}^{K} \log p(x|\pi_k, c)$
4. 분류 수행: 각 클래스에 대해 계산된 로그 가능도를 비교하여 최종 클래스를 선택합니다.

효율성

확산 모델 (DM) 은 단일 이미지당 100~250 번의 모델 추론 (Forward Pass) 이 필요한 반면, AR 모델은 $K$ 개의 순서만 사용하더라도 (예: $K=20$ ) 확산 모델보다 최대 25 배 더 빠른 추론 속도를 제공합니다.

3. 주요 기여 (Key Contributions)

토큰 순서의 중요성 규명: AR 기반 생성적 분류에서 토큰 순서가 분류 결과에 결정적인 영향을 미친다는 것을 실험적으로 증명했습니다. 고정된 순서는 편향된 판단을 유발하지만, 다중 순서 평균화는 더 정확한 분류를 가능하게 합니다.
순서 마진화 AR 분류기 제안: RandAR 모델을 기반으로 여러 토큰 순서에 대한 예측을 통합하는 새로운 프레임워크를 제시했습니다. 이는 AR 모델이 확산 모델을 능가할 수 있는 잠재력을 입증합니다.
최신 자기지도 학습 (SSL) 모델과의 비교: 기존 생성적 분류기 연구가 주로 지도 학습 분류기 (Supervised Classifiers) 와만 비교했던 것과 달리, 이 연구는 DINOv2와 같은 최신 자기지도 학습 (SSL) 기반의 강력한 판별 모델 (Discriminative Models) 과 직접 비교했습니다.
오픈소스 공개: 제안된 방법론의 코드와 모델을 공개하여 연구의 재현성을 보장합니다.

4. 실험 결과 (Results)

실험은 ImageNet-1K 및 다양한 분포 외 (OOD) 벤치마크 (ImageNet-R, S, A, C 등) 에서 수행되었습니다.

분류 정확도:
- 제안된 RandAR (Ours) 는 고정 순서 AR 모델 (LlamaGen, VAR 등) 과 확산 모델 기반 분류기 (DiT, SiT) 를 모두 능가하는 최고 수준의 성능 (SOTA) 을 기록했습니다.
- 특히 ImageNet-Val에서 XL 모델 기준 81.3% 의 정확도를 달성했습니다.
강건성 (Robustness):
- 분포 외 (OOD) 데이터셋 (예: 스케치, 자연적 적대적 예시, 노이즈 등) 에서 확산 모델보다 훨씬 뛰어난 성능을 보여주었습니다.
- DINOv2 (XL) 와 비교했을 때, 도메인 내 (In-domain) 정확도는 약간 낮았으나, 3 개의 OOD 벤치마크에서 DINOv2 를 능가하거나 유사한 성능을 보였습니다. 이는 생성적 분류기가 기존 판별 모델보다 더 강건한 특징을 학습함을 의미합니다.
효율성:
- 확산 모델보다 최대 25 배 빠른 추론 속도를 제공하면서도 더 높은 정확도를 달성했습니다.
에러 분석:
- 다중 객체 이미지나 시각적으로 유사한 클래스 (예: 개 품종) 에서 실수가 발생하지만, RandAR 는 잘못된 클래스를 예측하더라도 정답 객체에 대해 높은 가능도 점수를 부여하는 등 해석 가능한 특성을 보였습니다.

5. 의의 및 결론 (Significance)

AR 모델의 부활: 확산 모델의 우세로 인해 상대적으로 소외되었던 AR 모델이, 적절한 순서 처리 기법 (Any-order) 을 도입함으로써 생성적 분류 분야에서 다시 한번 최상위 성능을 달성할 수 있음을 증명했습니다.
효율성과 성능의 동시 달성: 기존에 생성적 분류기가 가진 "계산 비용이 너무 높다"는 단점을 극복하고, 판별 모델의 효율성과 생성 모델의 강건성을 모두 갖춘 모델을 제시했습니다.
미래 연구 방향:
- 자기지도 학습 (SSL) 기술과의 결합을 통한 성능 향상 가능성 제시.
- 이미지 적응형 토큰 순서 예측기 (Image-adaptive token-order predictors) 도입.
- 생성적 분류기를 판별 모델로 증류 (Distillation) 하여 추론 효율성을 극대화하는 방안 모색.

이 논문은 생성적 모델이 단순한 이미지 생성을 넘어, 고도로 효율적이고 강건한 이미지 분류기로서도 경쟁력이 있음을 입증한 중요한 연구입니다.