Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

이 논문은 비압축적 비전 모델의 이론적 기반을 마련하기 위해 패치 크기를 1x1(픽셀) 까지 축소하는 실험을 통해 패치화 크기가 작아질수록 모델 성능이 지속적으로 향상된다는 새로운 스케일링 법칙을 발견하고, 이를 통해 50,176 개의 토큰 시퀀스로 ImageNet-1k 에서 84.6% 의 높은 정확도를 달성했음을 보고합니다.

Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

게시일 2026-02-23
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 컴퓨터가 사진을 보는 방식을 완전히 바꿔야 할지도 모른다는 놀라운 발견을 담고 있습니다. 제목만 봐도 흥미롭죠? **"한 장의 사진은 50,176 개의 조각 (토큰) 으로 이루어져 있다"**는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 방식: 사진을 '레고 블록'으로 자르기 (패치화)

지금까지 컴퓨터 비전 (Vision Transformer 등) 은 사진을 볼 때, 마치 거대한 모자이크를 만드는 것처럼 사진을 잘게 잘랐습니다.

  • 비유: 224x224 크기의 사진을 16x16 크기의 작은 사각형 (패치) 으로 자른다고 상상해 보세요. 그러면 사진은 196 개의 큰 블록으로 나뉩니다.
  • 이유: 컴퓨터가 모든 픽셀 (화소) 을 한 번에 처리하면 너무 무겁고 비싸기 때문에, 정보를 줄여서 (압축해서) 처리했습니다. 마치 고해상도 원본 파일을 압축해서 이메일로 보내는 것과 비슷하죠.
  • 문제점: 하지만 이 과정에서 세밀한 정보가 사라집니다. 사진 속의 아주 작은 점이나 미세한 질감 같은 것들이 '블록'으로 합쳐지면서 버려지는 거예요.

2. 이 논문의 핵심 발견: "조금 더 잘게 잘라보자!" (패치 크기 축소)

연구진은 "아니, 왜 정보를 버리면서까지 잘라야 하지?"라고 의문을 품고 실험을 시작했습니다. 패치 크기를 16x16 에서 8x8, 4x4, 그리고 끝까지 **1x1 (픽셀 하나하나)**까지 줄여보았습니다.

  • 결과: 놀랍게도, 패치를 더 작게 자를수록 컴퓨터의 성능이 계속 좋아졌습니다.
  • 비유: 사진을 볼 때, 처음엔 '산'만 보고 있다가 점점 '나무', '나뭇잎', 그리고 '나뭇잎의 맥'까지 하나하나 세세하게 보는 것과 같습니다. 정보가 줄어들지 않고 모든 디테일을 온전히 보존하니, 컴퓨터가 사진을 훨씬 더 잘 이해하게 된 것입니다.

3. 놀라운 기록: "한 장의 사진 = 50,176 개의 단어"

기존 방식 (16x16 패치) 이라면 사진은 196 개의 단어 (토큰) 로 표현되지만, 이 연구에서는 1x1 패치를 사용해서 50,176 개의 토큰으로 만들었습니다.

  • 의미: 마치 한 장의 사진을 읽을 때, 196 단어로 요약된 요약본을 읽는 대신, **5 만 단어 분량의 원전 (Original)**을 그대로 읽는 것과 같습니다.
  • 성과: 이 방법으로 ImageNet (이미지 인식 대회) 에서 84.6% 라는 매우 높은 정확도를 달성했습니다. 기존에 '중간 크기' 모델로는 달성하기 어려웠던 결과입니다.

4. 추가 발견: "해석자 (디코더) 가 필요 없다?"

기존에는 사진을 잘게 자른 뒤, 다시 원래 형태로 복원하거나 세부 사항을 맞추기 위해 복잡한 '해석기 (디코더)'가 필요했습니다.

  • 비유: 사진을 잘게 자르면 조각이 너무 작아서 다시 붙이기 어렵기 때문에, 전문적인 '접착제 (디코더)'가 필요했던 것입니다.
  • 변화: 하지만 연구진은 패치를 픽셀 단위 (1x1) 로 아주 잘게 자르면, 조각들이 이미 너무 정교해서 접착제가 필요 없어진다는 것을 발견했습니다.
  • 의미: 복잡한 부가 장치 없이도, 사진 자체를 아주 세밀하게 보는 것만으로도 모든 작업 (물체 찾기, 영역 나누기 등) 을 완벽하게 해낼 수 있게 된 것입니다.

5. 왜 이제까지 안 했을까? (컴퓨터 성능의 한계)

"그럼 왜 처음부터 이렇게 안 했지?"라는 질문이 나올 수 있습니다.

  • 이유: 5 년 전만 해도, 이렇게 세밀하게 (5 만 개 토큰) 처리하려면 컴퓨터 메모리가 터지고 계산 시간이 너무 오래 걸려서 불가능했습니다.
  • 현재: 하지만 최근 하드웨어 (GPU) 가 엄청나게 발전하고, 효율적인 알고리즘이 개발되면서 **"픽셀 하나하나를 학습한다"**는 것이 이제 현실이 되었습니다.

요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"컴퓨터가 사진을 볼 때, 정보를 줄여서 (압축해서) 보는 것은 구식 방식이다"**라고 말합니다.

컴퓨터 성능이 좋아졌으니, 이제부터는 사진의 모든 픽셀을 있는 그대로, 세밀하게 학습해야 더 똑똑한 AI 를 만들 수 있다는 것입니다. 마치 저해상도 사진 대신 고화질 원본을 보는 것처럼 말이죠.

이 발견은 앞으로 더 똑똑하고, 더 간단하며, 더 정확한 AI 모델들을 만드는 새로운 길 (스케일링 법칙) 을 열어주었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →