Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Each language version is independently generated for its own context, not a direct translation.

이 논문은 컴퓨터가 사진을 보는 방식을 완전히 바꿔야 할지도 모른다는 놀라운 발견을 담고 있습니다. 제목만 봐도 흥미롭죠? **"한 장의 사진은 50,176 개의 조각 (토큰) 으로 이루어져 있다"**는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 방식: 사진을 '레고 블록'으로 자르기 (패치화)

지금까지 컴퓨터 비전 (Vision Transformer 등) 은 사진을 볼 때, 마치 거대한 모자이크를 만드는 것처럼 사진을 잘게 잘랐습니다.

비유: 224x224 크기의 사진을 16x16 크기의 작은 사각형 (패치) 으로 자른다고 상상해 보세요. 그러면 사진은 196 개의 큰 블록으로 나뉩니다.
이유: 컴퓨터가 모든 픽셀 (화소) 을 한 번에 처리하면 너무 무겁고 비싸기 때문에, 정보를 줄여서 (압축해서) 처리했습니다. 마치 고해상도 원본 파일을 압축해서 이메일로 보내는 것과 비슷하죠.
문제점: 하지만 이 과정에서 세밀한 정보가 사라집니다. 사진 속의 아주 작은 점이나 미세한 질감 같은 것들이 '블록'으로 합쳐지면서 버려지는 거예요.

2. 이 논문의 핵심 발견: "조금 더 잘게 잘라보자!" (패치 크기 축소)

연구진은 "아니, 왜 정보를 버리면서까지 잘라야 하지?"라고 의문을 품고 실험을 시작했습니다. 패치 크기를 16x16 에서 8x8, 4x4, 그리고 끝까지 **1x1 (픽셀 하나하나)**까지 줄여보았습니다.

결과: 놀랍게도, 패치를 더 작게 자를수록 컴퓨터의 성능이 계속 좋아졌습니다.
비유: 사진을 볼 때, 처음엔 '산'만 보고 있다가 점점 '나무', '나뭇잎', 그리고 '나뭇잎의 맥'까지 하나하나 세세하게 보는 것과 같습니다. 정보가 줄어들지 않고 모든 디테일을 온전히 보존하니, 컴퓨터가 사진을 훨씬 더 잘 이해하게 된 것입니다.

3. 놀라운 기록: "한 장의 사진 = 50,176 개의 단어"

기존 방식 (16x16 패치) 이라면 사진은 196 개의 단어 (토큰) 로 표현되지만, 이 연구에서는 1x1 패치를 사용해서 50,176 개의 토큰으로 만들었습니다.

의미: 마치 한 장의 사진을 읽을 때, 196 단어로 요약된 요약본을 읽는 대신, **5 만 단어 분량의 원전 (Original)**을 그대로 읽는 것과 같습니다.
성과: 이 방법으로 ImageNet (이미지 인식 대회) 에서 84.6% 라는 매우 높은 정확도를 달성했습니다. 기존에 '중간 크기' 모델로는 달성하기 어려웠던 결과입니다.

4. 추가 발견: "해석자 (디코더) 가 필요 없다?"

기존에는 사진을 잘게 자른 뒤, 다시 원래 형태로 복원하거나 세부 사항을 맞추기 위해 복잡한 '해석기 (디코더)'가 필요했습니다.

비유: 사진을 잘게 자르면 조각이 너무 작아서 다시 붙이기 어렵기 때문에, 전문적인 '접착제 (디코더)'가 필요했던 것입니다.
변화: 하지만 연구진은 패치를 픽셀 단위 (1x1) 로 아주 잘게 자르면, 조각들이 이미 너무 정교해서 접착제가 필요 없어진다는 것을 발견했습니다.
의미: 복잡한 부가 장치 없이도, 사진 자체를 아주 세밀하게 보는 것만으로도 모든 작업 (물체 찾기, 영역 나누기 등) 을 완벽하게 해낼 수 있게 된 것입니다.

5. 왜 이제까지 안 했을까? (컴퓨터 성능의 한계)

"그럼 왜 처음부터 이렇게 안 했지?"라는 질문이 나올 수 있습니다.

이유: 5 년 전만 해도, 이렇게 세밀하게 (5 만 개 토큰) 처리하려면 컴퓨터 메모리가 터지고 계산 시간이 너무 오래 걸려서 불가능했습니다.
현재: 하지만 최근 하드웨어 (GPU) 가 엄청나게 발전하고, 효율적인 알고리즘이 개발되면서 **"픽셀 하나하나를 학습한다"**는 것이 이제 현실이 되었습니다.

요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"컴퓨터가 사진을 볼 때, 정보를 줄여서 (압축해서) 보는 것은 구식 방식이다"**라고 말합니다.

컴퓨터 성능이 좋아졌으니, 이제부터는 사진의 모든 픽셀을 있는 그대로, 세밀하게 학습해야 더 똑똑한 AI 를 만들 수 있다는 것입니다. 마치 저해상도 사진 대신 고화질 원본을 보는 것처럼 말이죠.

이 발견은 앞으로 더 똑똑하고, 더 간단하며, 더 정확한 AI 모델들을 만드는 새로운 길 (스케일링 법칙) 을 열어주었습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 패치화 (Patchification) 의 스케일링 법칙

이 논문은 비전 트랜스포머 (ViT) 및 최신 비전 아키텍처에서 널리 사용되는 패치화 (Patchification) 과정이 시각 정보에 어떤 손실을 초래하는지, 그리고 패치 크기를 줄여 정보 손실을 최소화할 때 모델 성능이 어떻게 변화하는지를 체계적으로 분석합니다. 저자들은 패치 크기를 줄여가는 과정에서 새로운 스케일링 법칙을 발견했으며, 이는 "이미지는 50,176 개의 토큰 (그 이상) 의 가치가 있다"는 결론으로 이어집니다.

1. 문제 정의 (Problem)

기존 패치화의 한계: ViT 를 포함한 현대 비전 아키텍처는 계산 효율성을 위해 이미지를 $P \times P$ 크기의 패치로 분할하여 토큰 시퀀스로 변환합니다 (예: $16 \times 16$ 패치). 이는 공간적 차원을 축소하여 시퀀스 길이를 줄이고 계산 비용을 절감하지만, 비가역적인 정보 손실을 초래합니다.
정보량 불일치: $224 \times 224$ 해상도의 이미지는 $16 \times 16$ 패치화 시 196 개의 토큰으로 압축되는데, 이는 수백 단어의 텍스트와 유사한 표현 공간을 가집니다. 그러나 시각 데이터는 텍스트보다 훨씬 풍부한 정보를 포함하고 있으며, 압축 과정에서 중요한 저수준 특징 (low-level features) 이 손실될 수 있습니다.
기존 스케일링의 제약: 비전 모델의 성능 향상을 위해 파라미터 수를 늘리는 (Parameter Scaling) 방식은 한계에 부딪히고 있으며, 입력 해상도를 높이는 방식은 원본 이미지 해상도의 물리적 한계와 과적합 (over-parameterization) 문제를 야기합니다.

2. 방법론 (Methodology)

패치 크기 스케일링 실험: 저자들은 패치 크기를 기존의 $16 \times 16$ 에서 시작하여 $8 \times 8$ , $4 \times 4$ , $2 \times 2$ , 그리고 최종적으로 ** $1 \times 1$ (픽셀 토큰화)**까지 점진적으로 줄이는 실험을 수행했습니다.
모델 아키텍처:
- ViT (DeiT): 표준 트랜스포머 아키텍처를 사용하여 짧은 시퀀스 (최대 4,096 토큰) 에서 실험.
- Adventurer (Mamba 기반): 선형 복잡도 (Linear Complexity) 를 가진 Mamba 모듈을 활용한 아키텍처. 이를 통해 ViT 의 이차적 계산 복잡도 ( $O(N^2)$ ) 문제를 우회하고, $224 \times 224$ 입력을 $1 \times 1$ 패치로 처리하여 50,176 개의 토큰 시퀀스를 생성하는 것이 가능해졌습니다.
평가 태스크: 이미지 분류 (ImageNet-1k), 시맨틱 세그멘테이션 (ADE20k), 객체 감지 및 인스턴스 세그멘테이션 (COCO) 등 다양한 비전 태스크에서 테스트 손실 (Test Loss) 과 정확도를 측정했습니다.
디코더 제거 실험: 밀집 예측 (Dense Prediction) 태스크에서 패치 크기가 줄어들어 인코더가 충분히 세밀한 특징을 추출할 수 있는지, 그리고 이를 위해 필요한 전용 디코더 헤드의 필요성이 감소하는지 확인했습니다.

3. 주요 기여 및 발견 (Key Contributions & Findings)

패치화 스케일링 법칙 (Patchification Scaling Laws) 발견:
- 패치 크기가 작아질수록 (압축률이 낮아질수록) 모델의 테스트 손실이 매끄럽게 감소하고 예측 성능이 지속적으로 향상됨을 발견했습니다.
- 이 법칙은 ViT 와 Mamba 기반 모델 (Adventurer) 모두에서, 그리고 다양한 입력 해상도와 태스크에서 일관되게 적용되었습니다.
- 최종 결론: 패치 크기를 $1 \times 1$ (픽셀 단위) 까지 줄였을 때 가장 높은 성능을 달성했습니다. 즉, **압축 없는 인코딩 (Non-compressive encoding)**이 이상적인 비전 표현 학습임을 시사합니다.
초장기 시퀀스 처리 가능성:
- Adventurer 모델의 선형 복잡도 덕분에 ImageNet 입력 ( $224 \times 224$ ) 을 $1 \times 1$ 패치로 처리하여 50,176 개의 토큰으로 구성된 시각 시퀀스를 직접 처리하는 데 성공했습니다.
- 이는 기존 ViT 기반 모델이 분할 없이 처리할 수 없었던 길이의 시퀀스를 성공적으로 학습한 사례입니다.
디코더 헤드의 불필요성 (Decoder-Free Dense Prediction):
- 시맨틱 세그멘테이션 실험에서 패치 크기가 작아질수록 (예: $16 \times 16 \to 2 \times 2$ ) 복잡한 디코더 (UperNet 등) 없이도 단순한 선형 레이어만으로도 경쟁력 있는 성능을 달성했습니다.
- 이는 인코더가 픽셀 수준의 정보를 충분히 추출할 수 있게 되면, 태스크별 디코더 헤드가 더 이상 필수적이지 않음을 의미하며, 인코더 전용 (Encoder-only) 비전 파운데이션 모델의 가능성을 제시합니다.
성능 향상 원인 규명:
- 시퀀스 길이 증가 자체보다는 **압축률 감소로 인한 정보 획득 (Information Gain)**이 성능 향상의 주된 원인임을 증명했습니다.
- 기존 패치를 유지한 채 토큰을 보간 (Interpolation) 하여 시퀀스 길이만 늘린 실험에서는 성능 향상이 미미했으나, 패치 크기를 줄여 실제 정보를 추가한 실험에서는 큰 성능 향상을 보였습니다.

4. 실험 결과 (Results)

ImageNet-1k 분류:
- Adventurer-Base 모델 ( $224 \times 224$ 입력) 에서 패치 크기를 $16 \times 16$ 에서 $1 \times 1$ 로 줄였을 때, 정확도가 **82.6% 에서 84.6%**로 크게 향상되었습니다.
- 이는 베이스 사이즈 모델 (약 1 억 파라미터) 로 달성한 매우 경쟁력 있는 결과입니다.
ADE20k 시맨틱 세그멘테이션:
- 패치 크기가 $16 \times 16$ 일 때 mIoU 45.7% (디코더 사용) 였으나, 패치 크기를 줄이고 디코더를 제거한 상태 ( $2 \times 2$ ) 에서도 mIoU 46.8% 를 기록하며 성능이 개선되었습니다.
COCO 객체 감지 및 인스턴스 세그멘테이션:
- 패치 크기가 작아질수록 AP(Average Precision) 가 지속적으로 증가하여 하드웨어 계산 한계 ( $2 \times 2$ ) 에서 최상의 성능을 보였습니다.
파라미터 스케일링 vs 패치 크기 스케일링:
- 파라미터 수를 늘리는 것보다 패치 크기를 줄이는 것이 더 효율적인 성능 향상을 제공하며, 파라미터 스케일링의 한계 (수억 개 이상에서 성능 정체) 를 우회할 수 있음을 보였습니다.

5. 의의 및 결론 (Significance)

비전 아키텍처의 패러다임 전환 제안: 이 연구는 "이미지는 50,176 개의 토큰 (그 이상) 의 가치가 있다"는 관점을 제시하며, 기존에 계산 효율성을 위해 필수적이었던 패치화 (압축) 를 포기하고 픽셀 단위의 비압축 학습 (Pixel-level learning) 으로 전환해야 함을 주장합니다.
하드웨어 발전과의 시너지: 과거에는 메모리 및 계산 비용 때문에 패치화가 필수적이었으나, 최신 하드웨어 (A100 GPU 등) 와 효율적인 아키텍처 (Mamba 등) 의 발전으로 이제 픽셀 단위의 긴 시퀀스 학습이 실용 가능해졌습니다.
미래 연구 방향: 이 논문은 비전 파운데이션 모델을 구축할 때 공간 압축을 제거하고, 모든 픽셀 정보를 활용하는 비압축 (Non-compressive) 비전 모델 개발에 대한 이론적 기반을 제공합니다. 또한, 복잡한 디코더 구조 없이도 강력한 성능을 내는 단일 인코더 아키텍처의 가능성을 열었습니다.

이 연구는 비전 모델의 스케일링 법칙을 파라미터 크기나 데이터 양뿐만 아니라 **공간 압축률 (패치 크기)**의 관점에서 재정의했다는 점에서 중요한 의의를 가집니다.

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

1. 기존 방식: 사진을 '레고 블록'으로 자르기 (패치화)

2. 이 논문의 핵심 발견: "조금 더 잘게 잘라보자!" (패치 크기 축소)

3. 놀라운 기록: "한 장의 사진 = 50,176 개의 단어"

4. 추가 발견: "해석자 (디코더) 가 필요 없다?"

5. 왜 이제까지 안 했을까? (컴퓨터 성능의 한계)

요약: 이 연구가 우리에게 주는 메시지

논문 요약: 패치화 (Patchification) 의 스케일링 법칙

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 및 발견 (Key Contributions & Findings)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Evaluating Generalization and Robustness in Russian Anti-Spoofing: The RuASD Initiative

KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

Cardinality is Not Enough: Super Host Detection via Segmented Cardinality Estimation

A Dynamic Toolkit for Transmission Characteristics of Precision Reducers with Explicit Contact Geometry