Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시각 언어 모델 (VLM)"**이라는 인공지능이 이미지를 보고 이해할 때, 어떤 '눈' (비전 인코더) 을 쓰는 것이 가장 좋은지 연구한 내용입니다.

기존에는 대부분의 AI 가 **'비전 트랜스포머 (ViT)'**라는 특정 종류의 '눈'을 사용했는데, 이 논문은 **"아니, 혹시 '상태 공간 모델 (SSM, 예: VMamba)'이라는 새로운 종류의 '눈'이 더 나을 수도 있지 않을까?"**라고 질문하며 실험을 진행했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 연구의 배경: "눈"을 교체하는 실험

상상해 보세요. AI 는 **대형 언어 모델 (LLM)**이라는 '지적인 뇌'와 비전 인코더라는 '눈'으로 구성되어 있습니다.

뇌 (LLM): 언어를 이해하고 대답을 생성합니다.
눈 (비전 인코더): 이미지를 보고 특징을 뽑아내어 뇌에게 전달합니다.

기존에는 이 '눈'으로 무조건 ViT(트랜스포머) 계열을 썼습니다. 하지만 연구자들은 "ViT 가 항상 최강일까? 혹시 **SSM(VMamba)**이라는 새로운 '눈'이 더 잘 볼 수 있지 않을까?"라고 궁금해했습니다.

2. 핵심 실험: 공정한 대결 (Matched Setting)

연구자들은 공정한 비교를 위해 모든 조건을 똑같이 맞췄습니다.

비유: 두 명의 선수가 같은 코트에서, 같은 공을 가지고, 같은 규칙으로 경기를 하는 상황입니다.
결과: 놀랍게도 **SSM(VMamba)**이 ViT 보다 훨씬 잘했습니다. 특히 **"어디에 무엇이 있는지 찾는 능력 (로컬라이제이션)"**에서 VMamba 가 압도적이었습니다.
- 예시: "왼쪽 구석에 있는 노란색 바지를 입은 사람"을 찾아달라고 했을 때, ViT 는 "사람"은 찾지만 위치가 흐릿할 수 있는 반면, VMamba 는 정확히 그 사람과 바지를 가리켰습니다.

3. 중요한 발견 1: "크기"와 "점수"는 거짓말할 수 있다

기존의 상식은 "모델이 크고, 이미지 분류 점수 (ImageNet 점수) 가 높을수록 AI 가 똑똑하다"였습니다. 하지만 이 논문은 이를 깨뜨렸습니다.

비유: 시험 점수가 100 점인 학생이 있다고 해서, 그 학생이 항상 "실제 상황 (이미지 속 사물 찾기)"을 잘 파악하는 건 아닙니다. 오히려 시험 문제만 너무 잘 풀어서 실제 상황에서는 엉뚱한 답을 할 수도 있습니다.
발견: ViT 계열은 모델이 커질수록 오히려 위치 파악 능력이 떨어지는 경우가 많았습니다. 반면 VMamba 는 상대적으로 작은 크기임에도 불구하고 더 뛰어난 성능을 보였습니다.

4. 중요한 발견 2: "훈련 목적"이 중요함

이미지를 분류하는 것 (고양이 vs 강아지) 만으로 훈련된 눈은, 사물의 위치를 정확히 파악하는 데 약점이 있었습니다.

비유: 단순히 "이게 사과야, 배야"만 구분하는 훈련을 받은 눈은, "사과가 테이블 왼쪽에 있어"라고 말해주기 어렵습니다.
해결책: 연구자들은 **물체 감지 (Detection)**나 세그멘테이션 (Segmentation) 훈련을 추가했습니다.
- 결과: ViT 도 이 훈련을 받으면 성능이 좋아졌지만, VMamba 는 처음부터 이미 공간 감각이 좋아서 더 강력하게 성장했습니다.

5. 중요한 발견 3: "연결부"와 "화면 비율"의 문제 (붕괴 현상)

가장 흥미로운 부분은 '붕괴 (Collapse)' 현상이었습니다. 어떤 설정에서는 갑자기 AI 가 위치 파악을 전혀 못하게 되었습니다.

원인: 눈 (비전 인코더) 이 좋은 정보를 보내는데, **뇌 (LLM) 로 가는 통로 (커넥터)**가 좁거나, **화면 비율 (세로로 긴 이미지 등)**이 뇌가 이해하기 어려워서 정보가 뭉개진 것입니다.
해결책:
1. 통로 넓히기: 정보를 전달하는 연결부 (커넥터) 를 더 강력하게 만들었습니다.
2. 화면 비율 맞추기: 이미지를 네모반듯한 (정사각형) 형태로 맞추니 AI 가 정보를 훨씬 잘 이해했습니다.
- 비유: 좋은 화질로 찍은 영상을 보내는데, TV 와 케이블이 안 맞거나 화면이 찌그러져 있으면 화질이 나빠지는 것과 같습니다. 이걸 고치니 성능이 급상승했습니다.

6. 결론: 왜 이 연구가 중요한가?

이 논문의 결론은 매우 명확합니다.

ViT 가 전부는 아니다: 이제까지 당연시되던 '비전 트랜스포머' 대신 **SSM(VMamba)**이 더 강력하고 효율적인 대안이 될 수 있습니다.
작지만 강한 모델: 거대한 모델을 쓸 필요 없이, VMamba 같은 모델이 더 적은 계산량으로 더 좋은 결과를 냅니다.
시스템 설계의 중요성: 좋은 '눈'만 있으면 되는 게 아니라, '눈'과 '뇌'를 연결하는 **방법 (인터페이스)**과 훈련 방식을 잘 맞춰주는 것이 핵심입니다.

한 줄 요약:

"AI 가 세상을 볼 때, 기존의 '트랜스포머'라는 안경 대신 'VMamba'라는 새로운 안경을 끼고, 네모난 화면으로 보이며 연결 고리를 튼튼히 해주면, 훨씬 똑똑하고 정확한 답변을 할 수 있습니다!"

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

1. 연구의 배경: "눈"을 교체하는 실험

2. 핵심 실험: 공정한 대결 (Matched Setting)

3. 중요한 발견 1: "크기"와 "점수"는 거짓말할 수 있다

4. 중요한 발견 2: "훈련 목적"이 중요함

5. 중요한 발견 3: "연결부"와 "화면 비율"의 문제 (붕괴 현상)

6. 결론: 왜 이 연구가 중요한가?

논문 요약: VLM 은 Vision Transformer 가 필요한가? (Do VLMs Need Vision Transformers?)

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

A. 매칭된 IN1K/224 설정 (Matched Setting)

B. 밀도 객체 적응 (Dense Objectives Adaptation)

C. 효율성 분석

5. 의의 및 결론 (Significance & Conclusion)

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

1. 연구의 배경: "눈"을 교체하는 실험

2. 핵심 실험: 공정한 대결 (Matched Setting)

3. 중요한 발견 1: "크기"와 "점수"는 거짓말할 수 있다

4. 중요한 발견 2: "훈련 목적"이 중요함

5. 중요한 발견 3: "연결부"와 "화면 비율"의 문제 (붕괴 현상)

6. 결론: 왜 이 연구가 중요한가?

논문 요약: VLM 은 Vision Transformer 가 필요한가? (Do VLMs Need Vision Transformers?)

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

A. 매칭된 IN1K/224 설정 (Matched Setting)

B. 밀도 객체 적응 (Dense Objectives Adaptation)

C. 효율성 분석

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문