Revisiting Autoregressive Models for Generative Image Classification

이 논문은 고정된 토큰 순서의 한계를 극복하기 위해 임의 순서 autoregressive 모델을 활용하여 순서 간 예측을 평균화함으로써, 확산 모델보다 정확도가 높고 효율성이 25 배 뛰어난 이미지 분류 성능을 달성하는 새로운 접근법을 제시합니다.

Ilia Sudakov, Artem Babenko, Dmitry Baranchuk

게시일 2026-03-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지를 분류하는 AI 가 어떻게 더 똑똑하고 빠르게 될 수 있을까?"**라는 질문에 대한 새로운 해법을 제시합니다.

기존의 AI 는 이미지를 볼 때 마치 한 줄의 글자를 왼쪽에서 오른쪽으로, 위에서 아래로만 읽는 사람처럼 행동했습니다. 하지만 이 연구팀은 "왜 꼭 그 순서대로만 읽어야 하지? 다른 순서로 읽으면 더 잘 이해할 수 있지 않을까?"라고 생각했고, 그 결과 기존 방식보다 훨씬 정확하고 빠른 새로운 AI를 만들었습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: "한 줄로만 읽는 AI 의 한계"

과거의 생성형 AI(이미지를 만드는 AI) 는 이미지를 분류할 때 고정된 순서를 따랐습니다.

  • 비유: 마치 책을 읽을 때 반드시 첫 페이지부터 마지막 페이지까지, 한 줄씩만 읽는 사람이라고 상상해 보세요.
  • 문제: 만약 책의 중간에 있는 중요한 단어가 빠지거나, 뒷부분의 맥락이 앞부분과 달라지면 그 사람은 내용을 잘못 이해할 수 있습니다. AI 도 마찬가지입니다. 이미지의 특정 부분만 보고 "이건 개야, 고양이야?"를 결정하다 보면 실수를 자주 합니다.

2. 해결책: "여러 각도에서 보는 '랜덤 독서' 전략"

연구팀은 이 문제를 해결하기 위해 **랜덤 순서 (Any-order)**로 이미지를 읽는 AI 를 도입했습니다.

  • 비유: 이제 그 사람이 책을 읽을 때, 매번 다른 순서로 읽는다고 상상해 보세요.
    • 1 회차: 앞장부터 읽음.
    • 2 회차: 뒷장부터 읽음.
    • 3 회차: 중간 장부터 시작해서 앞뒤로 오가며 읽음.
    • ...이렇게 20 번 정도 다른 순서로 책을 읽은 뒤, 모든 내용을 종합해서 결론을 내립니다.

이렇게 여러 번 다른 각도에서 정보를 모으면, 한 번의 읽기만으로는 놓쳤던 중요한 단서 (예: 동물의 귀 모양, 배경의 특징 등) 를 놓치지 않게 됩니다.

3. 핵심 기술: "여러 번 읽어서 평균 내기"

이 논문에서 제안한 핵심 아이디어는 "순서 무관 (Order-marginalized)" 예측입니다.

  • 비유: 시험 문제를 풀 때, 정답을 맞추기 위해 한 번만 풀지 않고, 20 번 다른 방식으로 문제를 풀어본 뒤 가장 많이 나온 정답을 선택하는 것과 같습니다.
  • 효과: 이렇게 하면 AI 는 이미지의 전체적인 맥락을 훨씬 더 잘 파악하게 되어, **어떤 물체인지 정확히 맞히는 능력 (분류 정확도)**이 비약적으로 상승합니다.

4. 놀라운 성과: "스피드와 정확도의 두 마리 토끼"

기존에 가장 성능이 좋다고 알려진 **확산 모델 (Diffusion Model, DM)**이라는 AI 는 이미지를 분류할 때 매우 느립니다.

  • 비유: 확산 모델은 정답을 맞추기 위해 200 번이나 천천히 그림을 그려보며 정답을 유추합니다. (매우 정확하지만 시간이 오래 걸림)
  • 새로운 AI (이 논문의 방법): 이 새로운 방법은 단 20 번만 빠르게 읽어도 확산 모델보다 더 정확합니다.
  • 결과: 기존 최고 성능 AI 보다 25 배나 빠르면서도, 오히려 더 정확하게 이미지를 분류했습니다.

5. 왜 중요한가요?

  1. 더 똑똑한 AI: 단순히 이미지를 분류하는 것을 넘어, 이미지의 '모양'과 '구조'를 인간처럼 더 잘 이해하게 되었습니다. (예: 털이 많은 동물 vs 털이 없는 동물 구분)
  2. 빠른 속도: 스마트폰이나 실시간 카메라 같은 곳에서 AI 를 쓸 때, 이 방식은 훨씬 적은 전력과 시간으로 작동할 수 있어 실용적입니다.
  3. 새로운 가능성: "이미지를 만드는 AI"가 "이미지를 분류하는 AI"로도 훌륭하게 쓸 수 있음을 증명했습니다.

요약

이 논문은 **"AI 가 이미지를 볼 때, 고정된 순서대로만 보지 말고 여러 가지 다른 순서로 골고루 보게 하면 훨씬 똑똑해진다"**는 사실을 발견했습니다. 마치 여러 친구가 각자 다른 순서로 책을 읽고 토론하면, 한 사람이 읽는 것보다 훨씬 정확한 결론을 내릴 수 있는 것과 같습니다.

이 방법은 기존에 가장 느렸던 AI 보다 25 배나 빠르면서도 더 정확해서, 앞으로 우리가 사용하는 카메라, 의료 영상 분석, 자율주행차 등 다양한 곳에 적용될 수 있는 획기적인 기술입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →