Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

이 논문은 비전 트랜스포머 (ViT) 의 효율성을 유지하면서 정확도를 높이기 위해 패치 토큰의 너비를 줄이고, 모든 레이어에서 파라미터를 공유하는 단일의 넓은 'Jumbo' 토큰을 도입하여 계산 비용을 절감하고 다양한 작업에서 성능을 개선하는 방법을 제안합니다.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos, Evan Shelhamer, James R. Green

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏢 비유: 거대한 회의실과 효율적인 의사결정

컴퓨터가 이미지를 인식하는 과정을 **'거대한 회의'**라고 상상해 보세요.

  1. 기존 방식 (일반 ViT):

    • 이미지를 작은 조각 (패치) 으로 잘게 나누고, 각 조각마다 동일한 크기의 직원을 배치합니다.
    • 회의의 총괄 책임자 (CLS 토큰) 는 단 한 명뿐입니다.
    • 문제점: 직원들이 너무 많아서 회의가 길어지고 (속도 느림), 총괄 책임자 한 명이 모든 정보를 다 처리하려다 보니 중요한 결정이 늦어지거나 (정확도 한계), 직원 수가 적으면 정보가 부족해집니다.
  2. 기존의 해결책 (Registers):

    • 총괄 책임자 옆에 **보조 직원들 (Registers)**을 몇 명 더 둡니다.
    • 문제점: 보조 직원들도 일반 직원과 똑같은 크기로 만들어서, 회의실 공간 (메모리) 을 많이 차지하고, 여전히 모든 직원이 똑같은 일을 합니다.
  3. 이 논문의 해결책 (Jumbo Token):

    • 아이디어: "일반 직원들은 작게 유지하되, 총괄 책임자 (Jumbo) 만은 거대한 몸집으로 키우자!"
    • 구체적인 방법:
      • 거대한 Jumbo 토큰: 일반 직원들보다 훨씬 굵고 넓은 (Wider) 능력을 가진 총괄 책임자를 만듭니다. 이 사람은 훨씬 더 많은 정보를 한 번에 처리할 수 있습니다.
      • 효율적인 운영: 이 거대한 책임자는 회의 중에는 잘게 쪼개져서 일반 직원들과 대화하지만 (Attention), 결정할 때는 다시 하나로 합쳐져서 거대한 두뇌 (Jumbo FFN) 로만 판단합니다.
      • 공유된 두뇌: 이 거대한 두뇌는 모든 회의 단계 (레이어) 에서 공유됩니다. 즉, 매번 새로운 두뇌를 사지 않고, 한 개의 강력한 두뇌를 여러 번 쓰는 셈이라 비용이 적게 듭니다.

🚀 왜 이것이 특별한가요? (핵심 장점)

이 방식은 "속도는 빠르면서, 똑똑함은 더 커지는" 마법을 부립니다.

  • 🏃‍♂️ 더 빠르고 (Quicker):

    • 일반 직원 (패치) 들은 작게 유지해서 회의 속도가 빠릅니다.
    • 거대한 책임자 (Jumbo) 는 단 한 명만 처리하므로, 무거운 계산이 많이 들어도 전체 속도가 느려지지 않습니다.
    • 결과: 기존에 가장 빠르다고 알려진 특수 설계 모델들보다도 더 빠르면서 정확도가 높습니다.
  • 🧠 더 똑똑하고 (Thicker):

    • 거대한 책임자가 가진 '두뇌 (FFN)'가 훨씬 넓어서, 복잡한 이미지나 다양한 데이터 (시계열, 텍스트 등) 를 훨씬 잘 이해합니다.
    • 결과: 이미지 인식, 객체 분할, 심지어 시계열 데이터 예측까지 모든 분야에서 성능이 크게 향상되었습니다.
  • 🔌 호환성 (Plug-and-Play):

    • 이 모델은 기존 ViT 의 구조를 완전히 바꾸지 않고, '거대한 책임자'만 추가하는 방식입니다.
    • 마치 기존 사무실에 고성능 PC 하나만 더 추가하는 것과 같습니다. 기존에 쓰던 모든 소프트웨어 (학습 방법, 적응 기술 등) 가 그대로 작동합니다. 다른 특수 설계 모델들은 기존 소프트웨어와 잘 안 맞는 경우가 많지만, Jumbo 는 다 잘 맞습니다.

📊 실제 성과 (숫자로 보는 변화)

  • 이미지 인식 (ImageNet): 아주 작은 모델에서도 정확도가 13% 까지 향상되었습니다. (기존의 '작은 모델 = 느리거나 못 쫓아감'이라는 통념 깨기)
  • 학습 효율: 더 적은 데이터와 계산량으로도 기존 거대 모델과 같은 성능을 냅니다.
  • 다양한 적용: 사진뿐만 아니라 **시간 흐름에 따른 데이터 (시계열)**나 텍스트 처리에서도 최상위권을 기록했습니다.

💡 한 줄 요약

"모든 직원을 똑같이 키우는 대신, '핵심 의사결정자'만 거대하게 키우고 나머지는 가볍게 유지하여, 회의는 빠르게 하되 결정은 더 똑똑하게 내리는 새로운 회의 시스템 (Jumbo ViT) 을 만들었습니다."

이 기술은 앞으로 AI 가 더 빠르고, 더 정확하며, 더 다양한 일을 할 수 있는 기반이 될 것입니다.