The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "너무 많은 손님, 좁은 식당"

생각해 보세요. AI 가 이미지를 분석할 때, 이미지를 작은 조각 (패치) 으로 잘게 나누어 **수백 개의 '토큰'**으로 만듭니다. 마치 식당에 수백 명의 손님이 들어온 것과 같아요.

기존의 문제: AI 는 이 수백 명의 손님 (토큰) 을 모두 똑같이 중요하게 대우하며 대화합니다. 하지만 실제로는 **손님의 90% 가 "아무 말도 안 하거나" (중요하지 않은 정보) 혹은 "이미 들은 이야기" (중복된 정보)**일 뿐입니다.
결과: AI 는 쓸데없는 손님들까지 모두 챙기느라 시간이 너무 오래 걸리고 (느려짐), 컴퓨터 메모리도 많이 잡아먹습니다.

2. 기존 해결책: "무작정 잘라내기"

지금까지의 방법들은 **"중요해 보이는 손님은 남기고, 중요하지 않아 보이는 손님은 무조건 밖으로 쫓아내겠다"**는 방식이었습니다.

단점: AI 가 "이 손님은 중요할지도 모른다"고 생각했는데 실수로 밖으로 내보내면, 나중에 그 정보가 필요할 때 AI 가 멍청해지거나 (정확도 하락) 실수를 합니다. 또한, 누가 중요할지 미리 정해진 규칙 (규칙 기반) 으로만 판단하다 보니 유연하지 못했습니다.

3. 이 논문의 해결책: "AutoSelect (자동 선택)"

이 논문은 **"손님을 밖으로 쫓아내는 게 아니라, '정보의 양'을 조절하자"**는 발상의 전환을 제안합니다.

🌟 핵심 비유: "소음 (Noise) 을 섞는 마법"

이 방법은 두 가지 신기한 장치를 사용합니다.

1 단계: 훈련 중 (가상 시뮬레이션)

작동 원리: AI 는 모든 손님을 다 안으로 들여보내되, 중요하지 않은 손님에게는 '소음 (잡음)'을 섞어서 말을 못하게 만듭니다.
비유: 식당에 모든 손님을 앉히되, 중요한 손님에게는 마이크를 주고, 중요하지 않은 손님에게는 귀를 막거나 소음을 크게 틀어 말을 못하게 합니다.
효과: AI 는 "소음이 섞인 상태에서도 정답을 맞춰야 하니까, 소음이 없는 (중요한) 손님의 말에 집중해야겠다"라고 스스로 학습하게 됩니다. 이때는 아무도 밖으로 나가지 않으므로 AI 가 실수할까 봐 걱정할 필요가 없습니다.

2 단계: 실제 사용 (실전)

작동 원리: 훈련이 끝난 AI 는 이제 '소음'을 섞는 장치를 끄고, 아까 학습한 대로 가장 중요한 손님들 (Top-K) 만 선별해서 실제 대화에 참여시킵니다.
결과: 쓸데없는 손님은 아예 초대하지 않으므로, 식당 (AI) 이 훨씬 빨라지고 효율적이 됩니다.

4. 왜 이 방법이 더 좋은가요?

스스로 배우는 능력: "이 손님은 중요해"라는 규칙을 사람이 정해줄 필요가 없습니다. AI 가 스스로 "어떤 정보가 정답에 도움이 되는지"를 찾아냅니다.
정확도 유지: 88.9% 의 손님을 잘라냈음에도, 정답률은 96.5% 수준으로 거의 떨어지지 않았습니다. (마치 100 명 중 11 명만 남겼는데, 그 11 명이 모두 전문가라 더 똑똑해진 것과 같습니다.)
매우 빠름: 중요한 손님을 고르는 데 걸리는 시간이 0.69 밀리초로, 거의 0 에 가깝습니다. (기존 방법들은 고르는 데만 시간이 너무 오래 걸렸습니다.)
범용성: 어떤 종류의 AI 모델 (LLaVA, Qwen 등) 에도 적용할 수 있어, 새로운 모델을 만들 때마다 다시 설계할 필요가 없습니다.

5. 한 줄 요약

"이 기술은 AI 가 이미지를 볼 때, '중요하지 않은 정보'를 아예 지워버리는 게 아니라, '중요하지 않은 정보에는 소음을 섞어 무시하게' 훈련시킨 뒤, 실제 사용할 때 가장 중요한 정보만 골라내어 속도는 3 배 빨라지고 정확도는 거의 잃지 않는 혁신적인 방법입니다."

이제 AI 는 더 이상 "모든 것을 다 보느라" 지치지 않고, **"무엇을 봐야 할지 아는 눈"**을 갖게 된 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: AutoSelect - 노이즈 게이트를 통한 자동 토큰 선택

1. 문제 정의 (Problem Statement)

배경: 비전 - 언어 모델 (VLM) 은 이미지 패치를 시각 토큰으로 변환하여 대규모 언어 모델 (LLM) 에 입력합니다. 고해상도 이미지나 비디오 처리 시 시각 토큰 수가 급증하여 LLM 의 자기 주의 (Self-attention) 메커니즘에서 계산 비용과 메모리 사용량이 이차 함수적으로 증가하는 병목 현상이 발생합니다.
기존 방법의 한계: 기존 토큰 가지치기 (Pruning) 방법들은 주로 어텐션 크기 (magnitude) 나 유사도 점수와 같은 국소적 지표에 의존하거나, 학습 후 (inference-time) 에 휴리스틱을 적용합니다. 이는 "덜 중요한" 토큰을 단순히 제거하는 방식에 그치며, 주어진 계산 예산 (Budget) 하에서 시각 정보를 어떻게 최적으로 할당해야 하는지에 대한 근본적인 질문을 다루지 못합니다. 또한, 많은 방법이 보조 손실 함수나 추가 주석이 필요하거나, 아키텍처 수정을 요구하여 비효율적입니다.

2. 방법론 (Methodology)

저자들은 시각 토큰 가지치기를 **"용량 제약 하의 표현 학습 (Capacity-Constrained Representation Learning)"**으로 재정의했습니다. 고정된 토큰 수 $K$ 를 유지하는 것이 아니라, 전체 토큰을 유지하되 각 토큰이 전달할 수 있는 **정보 대역폭 (Information Bandwidth)**을 제한하는 방식으로 접근합니다.

핵심 구성 요소:

학습 가능한 스코어러 (Scorer):
- 고정된 비전 인코더에서 추출된 토큰에 대해 중요도 점수를 할당합니다.
- Soft Top-K 연산자: 하드 Top-K(불연속적) 대신 미분 가능한 Soft Top-K 를 사용하여 온도를 조절하며 점수를 이진화 (0 또는 1) 합니다. 이를 통해 학습 중에는 모든 토큰이 통과하되, 중요도가 낮은 토큰의 정보 흐름이 제한됩니다.
분산 보존 노이즈 게이트 (Variance-Preserving Noise Gate):
- 핵심 아이디어: 토큰을 제거하는 대신, 중요도 점수 ( $\alpha_i$ ) 에 반비례하여 노이즈를 주입합니다.
- 수식: $\tilde{x}_i = \sqrt{\alpha_i} x_i + \sqrt{1-\alpha_i} \epsilon_i$ (여기서 $\epsilon_i$ 는 가우시안 노이즈).
- 효과: 중요도가 높은 토큰은 원본을 유지하고, 낮은 토큰은 등방성 가우시안 노이즈로 변형됩니다. 이는 토큰의 길이를 변경하지 않으면서 미분 가능한 방식으로 정보 대역폭을 제한합니다.
경량 디노이저 (Lightweight Denoiser):
- 노이즈가 주입된 토큰 시퀀스를 LLM 이 기대하는 입력 분포로 다시 매핑합니다.
- 대각선 어텐션 (Diagonal Attention): 토큰 간의 정보 유출 (Information Leakage) 을 방지하기 위해 각 토큰이 자기 자신에게만 어텐션 하도록 제한합니다. 이는 노이즈 게이트가 부과한 용량 제약을 학습 중 우회하지 않도록 보장합니다.
추론 (Inference) 단계:
- 학습 시 사용되던 노이즈 게이트와 디노이저는 제거됩니다.
- 스코어러가 생성한 점수를 기반으로 Hard Top-K 선택만 수행하여 상위 $K$ 개의 토큰만 LLM 에 전달합니다.
- 장점: 원본 VLM (비전 인코더, 프로젝터, LLM) 의 파라미터는 모두 동결 (Frozen) 되며, 추가적인 보조 손실 함수나 주석이 필요 없습니다.

3. 주요 기여 (Key Contributions)

새로운 프레이밍: 시각 토큰 가지치기를 이진 선택 문제가 아닌, 대역폭이 제한된 채널을 통한 용량 제약 표현 학습으로 재정의했습니다.
차분 가능한 최적화: 이진 제거 대신 분산 보존 노이즈 게이트와 Soft Top-K 를 도입하여 학습 중에는 모든 토큰에 그래디언트가 흐르도록 하되, 추론 시에는 하드 선택으로 수렴하게 했습니다.
효율성과 일반화:
- LLaVA-1.5-7B 에서 88.9% 가지치기 시에도 전체 모델 정확도의 **96.5%**를 유지합니다.
- LLM 프리필 (Prefill) 속도를 2.85 배 가속화하며, 가지치기 모듈 오버헤드는 0.69ms에 불과합니다.
- LLaVA-NEXT(고해상도) 와 Qwen2.5-VL(아키텍처가 다름) 등 다양한 백본에 구조적 수정 없이 적용 가능합니다.

4. 실험 결과 (Results)

벤치마크 성능: 10 가지 VLM 벤치마크 (GQA, MMBench, ScienceQA 등) 에서 기존 최첨단 방법 (PRUNESID, HoloV, FastV 등) 을 압도했습니다. 특히 토큰 수를 64 개로 극단적으로 줄인 경우 (88.9% pruning), AutoSelect 는 평균 정확도 유지율 96.5% 를 기록하여 PRUNESID(95.1%) 보다 1.4%p 높았습니다.
효율성 분석:
- TTFT (Time-to-First-Token): 전체 토큰 사용 대비 72.73ms 로, 기존 방법들보다 훨씬 빠릅니다. (예: PruneSID 는 모듈 오버헤드 43.39ms 로 인해 전체 속도가 느려짐).
- LLM 프리필 가속: 시각 토큰 수를 줄여 LLM 의 자기 주의 계산량을 획기적으로 감소시켰습니다.
LLM 없는 평가 (LLM-Free Evaluation): LLM 없이 ImageNet-1K 분류 태스크에서 선택된 토큰의 품질을 평가한 결과, AutoSelect 는 적은 토큰 수 (K=6) 에서도 기존 방법들보다 10%p 이상 높은 Top-1 정확도를 보여주어, 학습된 스코어러가 실제로 가장 정보량이 풍부한 패치를 선택함을 입증했습니다.
시각화: 선택된 토큰들은 객체의 핵심 부분 (얼굴, 손, 질감 등) 을 포착하고 있으며, 제거된 토큰들은 서로 유사한 배경 영역임을 확인했습니다.

5. 의의 및 결론 (Significance)

휴리스틱의 대체: 사전 정의된 휴리스틱 (어텐션 크기 등) 이 아닌, 데이터 기반의 학습된 용량 할당 메커니즘이 시각 토큰 선택에서 더 효과적임을 증명했습니다.
실용성: 추가적인 주석 데이터나 복잡한 보조 학습 목표 없이, 표준 다음 토큰 예측 손실 (Next-token prediction loss) 만으로 학습이 가능하여 다양한 VLM 아키텍처에 쉽게 적용할 수 있습니다.
미래 지향성: 고해상도 이미지 및 비디오 처리가 필수적인 차세대 멀티모달 모델에서 계산 효율성을 극대화하면서도 성능 저하를 최소화하는 핵심 기술로 자리매김할 것으로 기대됩니다.

이 논문은 AutoSelect를 통해 시각 토큰 가지치기의 패러다임을 "무엇을 버릴 것인가"에서 "어떻게 정보를 효율적으로 할당할 것인가"로 전환시켰으며, 높은 효율성과 우수한 성능을 동시에 달성한 획기적인 접근법을 제시했습니다.

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

1. 문제 상황: "너무 많은 손님, 좁은 식당"

2. 기존 해결책: "무작정 잘라내기"

3. 이 논문의 해결책: "AutoSelect (자동 선택)"

🌟 핵심 비유: "소음 (Noise) 을 섞는 마법"

4. 왜 이 방법이 더 좋은가요?

5. 한 줄 요약

논문 요약: AutoSelect - 노이즈 게이트를 통한 자동 토큰 선택

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers