Prompt Tuning for CLIP on the Pretrained Manifold

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 똑똑한 AI 의 딜레마

우리가 CLIP이라는 AI 모델을 생각해 봅시다. 이 모델은 수억 장의 사진과 글자를 보며 훈련되어, "개"와 "고양이"를 구별하거나 "해변"과 "산"을 알아보는 등 거의 모든 것을 아는 만능 전문가입니다.

하지만 이 전문가에게 새로운 특정 작업 (예: "희귀한 새 종류를 구별하는 것") 을 시키려면, 새로운 데이터로 다시 가르쳐야 합니다. 이때 두 가지 문제가 생깁니다.

전체 재학습 (Full Fine-tuning): 전문가의 두뇌를 모두 다시 가르치면 비용이 너무 많이 들고, 원래 알고 있던 지식이 망가질 수 있습니다.
프롬프트 튜닝 (Prompt Tuning): 전문가의 두뇌는 건드리지 않고, **작은 메모지 (프롬프트)**만 몇 장 붙여서 새로운 일을 지시하는 방법입니다. 이게 효율적이지만, 새로운 데이터가 너무 적을 때 (Few-shot) 문제가 생깁니다.

2. 문제: "길 잃은 학생" (Manifold Drift)

새로운 데이터가 적을 때, AI 는 새로운 일을 배우려고 **기존의 지혜로운 길 (Pretrained Manifold)**을 떠나 새로운, 하지만 위험한 길로 빠져나갑니다.

비유: Imagine (상상해 보세요).
- 기존 AI는 "전 세계의 지리를 잘 아는 여행 가이드"입니다.
- 새로운 데이터는 "어떤 작은 마을의 지도"만 3 장 정도입니다.
- 기존 방법 (일반 프롬프트 튜닝): 가이드가 3 장의 지도만 보고 "아, 이 마을은 이런 특징이 있구나!"라고 결론 내립니다. 그런데 그 3 장의 지도에 우연히 빨간 우산을 쓴 사람만 찍혀 있어서, AI 는 "이 마을 사람들은 모두 빨간 우산을 쓴다"라고 착각합니다.
- 결과: AI 는 원래 알고 있던 지리 지식 (전 세계의 일반적인 사실) 을 버리고, **그 3 장의 지도에만 맞는 엉뚱한 규칙 (빨간 우산)**을 배우게 됩니다. 이를 **"만다폴드 드리프트 (Manifold Drift)"**라고 합니다. 즉, 지식 기반의 길에서 벗어나 엉뚱한 곳으로 헤매는 것입니다.

3. 해결책: ManiPT (길 잃지 않는 학습법)

이 논문은 **"기존의 지혜로운 길에서 벗어나지 않으면서, 새로운 일을 배우는 방법"**을 제안합니다. 이를 ManiPT라고 합니다.

ManiPT 는 두 가지 핵심 전략을 사용합니다.

전략 1: 나침반과 줄 (코사인 일관성 제약)

비유: 가이드가 새로운 마을을 설명할 때, **원래 가지고 있던 세계 지도 (고정된 AI)**와 **새로운 메모지 (학습된 프롬프트)**를 동시에 봅니다.
원리: 새로운 설명이 원래 지도의 방향과 너무 멀어지지 않도록 **나침반 (코사인 유사도)**으로 계속 확인합니다. 만약 "빨간 우산" 같은 엉뚱한 규칙을 배우려고 하면, 나침반이 "아니야, 그건 원래 지도와 너무 달라!"라고 경고하며 제자리에 잡습니다.
효과: AI 가 새로운 데이터의 **우연한 특징 (배경, 텍스처 등)**에 속아 넘어가는 것을 막아줍니다.

전략 2: 점진적인 수정 (구조적 편향)

비유: 가이드가 새로운 마을을 설명할 때, 원래의 설명을 완전히 지우고 새로 쓰는 게 아니라, 원래 설명 위에 작은 메모를 덧붙이는 방식입니다.
원리: "원래는 '개'가 4 발로 걷는데, 이 새로운 개는 꼬리를 흔드는 게 특징이야"라고 기존 지식 위에 점진적으로 수정을 가합니다.
효과: AI 가 처음부터 완전히 새로운 (하지만 틀린) 규칙을 만들지 않고, **이미 검증된 지식 (전통)**을 바탕으로 작은 보정만 하도록 유도합니다. 이렇게 하면 데이터가 적어도 **과도하게 과적합 (Overfitting)**되지 않습니다.

전략 3: LLM 을 활용한 풍부한 설명

비유: 단순히 "개"라고만 적는 게 아니라, **LLM(거대 언어 모델)**에게 "털이 있고 귀가 처진 4 발 동물"처럼 풍부하고 정확한 설명을 미리 만들어 두었습니다.
효과: AI 가 새로운 데이터를 볼 때, 빈약한 데이터만 보고 착각하는 대신, 풍부한 사전 지식을 기준으로 삼아 더 정확하게 학습합니다.

4. 결과: 왜 이 방법이 좋은가요?

이 방법을 사용하면 다음과 같은 이점이 있습니다.

새로운 것에도 강함: 처음 보는 동물이나 사물 (Unseen Class) 을 잘 구별합니다.
데이터가 적어도 됨: 사진이 1 장뿐이어도 (1-shot) 잘 작동합니다.
다른 환경에서도 잘 됨: 날씨나 화질이 달라져도 (Domain Generalization) 원래 지식을 잃지 않고 적응합니다.

요약

ManiPT는 AI 가 새로운 일을 배울 때 **"기존의 지혜로운 길 (Manifold) 을 떠나지 않고, 그 길 위를 따라 조금만 수정 (Incremental Correction) 하여 새로운 목적지에 도달하는 방법"**입니다.

기존의 AI 는 "새로운 데이터만 보고 엉뚱한 길로 빠지는 학생"이었다면, ManiPT 는 **"선생님 (기존 AI) 의 지도를 믿으면서도, 작은 메모 (프롬프트) 로 새로운 정보를 정확히 추가하는 똑똑한 학생"**으로 만들어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 대규모 사전 학습된 비전 - 언어 모델 (VLM, 예: CLIP) 은 제한된 라벨 데이터 (Few-shot) 환경에서도 강력한 성능을 보입니다. 이를 적응시키기 위해 파라미터 효율적인 프롬프트 튜닝 (Prompt Tuning) 기법이 널리 사용됩니다.
핵심 문제 (Manifold Drift): 제한된 감독 신호 (Limited Supervision) 하에서 프롬프트 튜닝을 수행할 때, 학습된 표현 (Representations) 이 사전 학습된 매니폴드 (Pretrained Manifold) 에서 벗어나는 현상이 발생합니다.
- 모델이 훈련 데이터의 국소적 판별 신호 (예: 배경 패턴, 텍스처 노이즈) 에 과도하게 의존하여 단순화 학습 (Shortcut Learning) 을 수행하게 됩니다.
- 이로 인해 학습된 특징이 사전 학습된 기하학적 구조에서 멀어지고 (Drift), 미시적 (Unseen) 클래스나 도메인 간 전이 (Cross-domain Transfer) 성능이 저하되는 일반화 능력 감소가 발생합니다.
기존 방법의 한계: 기존 프롬프트 튜닝 방법들은 표현력을 높이거나 휴리스틱 정규화를 추가하지만, 사전 학습된 CLIP 특징에 대한 기하학적 근접성 (Geometric Proximity) 을 명시적으로 제어하지 못해 매니폴드 드리프트를 완전히 막지 못합니다.

2. 제안 방법: ManiPT (Methodology)

저자들은 ManiPT (Manifold Prompt Tuning) 라는 새로운 프레임워크를 제안합니다. 이는 사전 학습된 매니폴드 위에서 프롬프트 튜닝을 수행하여 드리프트를 방지하고 전이 가능한 방향으로 적응을 유도합니다.

주요 구성 요소:

LLM 기반 지식 풍부화 (LLM-based Knowledge Enrichment):
- 각 클래스에 대해 LLM 을 활용하여 상세한 설명을 생성하고, 이를 CLIP 텍스트 인코더에 입력하여 시맨틱 프로토타입 (Semantic Prototypes) 을 구축합니다. 이는 텍스트 측면의 안정적인 기준점을 제공합니다.
코사인 일관성 제약 (Cosine Consistency Constraints):
- 비전 측면: 프롬프트 튜닝된 이미지 특징과 고정된 (Frozen) CLIP 이미지 특징 간의 코사인 유사도를 최대화하도록 손실 함수를 설계합니다.
- 텍스트 측면: 프롬프트 튜닝된 텍스트 특징과 LLM 에서 유도된 시맨틱 프로토타입 간의 코사인 유사도를 최대화합니다.
- 목적: 학습된 표현이 사전 학습된 기하학적 이웃 (Geometric Neighborhood) 내에 머물도록 강제하여, 매니폴드에서의 큰 이탈을 방지합니다.
구조적 편향 (Structural Bias) - 점진적 수정 (Incremental Corrections):
- 단순히 매니폴드 내에 머무는 것만으로는 충분하지 않을 수 있습니다 (국소적 단순화 해결책이 존재할 수 있음).
- 가산 융합 (Additive Fusion): 고정된 CLIP 특징 ( $z$ $z$ ) 과 프롬프트 튜닝된 특징 ( $h$ $h$ ) 을 더한 후 정규화하여 최종 분류 특징 ( $f$ $f$ ) 을 생성합니다.
  - $f = \text{normalize}(z + h)$
- 효과: 이 구조는 기하학적 수축 (Geometric Contraction) 을 유도합니다. 즉, 프롬프트 학습이 기존 특징을 완전히 대체하는 것이 아니라, 사전 학습된 매니폴드를 기반으로 점진적인 수정 (Incremental Correction) 만 가하도록 강제합니다. 이는 데이터셋 특유의 단순화 (Shortcut) 에 의존하는 것을 억제하고 전이 가능한 방향으로 적응을 유도합니다.
최종 학습 목표:
- 분류 손실 (Cross-Entropy) 과 일관성 제약 손실 (Cosine Consistency) 을 결합하여 최적화합니다.

3. 주요 기여 (Key Contributions)

매니폴드 드리프트의 규명: 제한된 감독 하에서 프롬프트 튜닝이 왜 일반화 성능을 저하시키는지 (사전 학습된 매니폴드에서의 이탈) 를 이론적, 실험적으로 규명했습니다.
ManiPT 프레임워크 제안:
- 코사인 일관성 제약: 학습된 표현을 사전 학습된 기하학적 이웃 내에 가두어 드리프트를 방지합니다.
- 구조적 편향: 가산 융합을 통해 점진적 수정을 강제하여 단순화 학습을 억제하고 전이 가능한 방향으로 적응을 유도합니다.
이론적 보장: 구조적 편향이 유도하는 기하학적 수축 특성을 분석하고, 일관성 제약이 일반화 오차의 상한을 낮춘다는 이론적 증명을 제시했습니다.
광범위한 실험 검증: 다양한 시나리오 (미시적 일반화, Few-shot 분류, 교차 데이터셋 전이, 도메인 일반화) 에서 기존 SOTA 방법들을 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

ManiPT 는 15 개의 데이터셋 (ImageNet, Caltech101, OxfordPets 등) 과 4 가지 주요 설정에서 평가되었습니다.

Base-to-Novel Generalization: 11 개 데이터셋에서 평균 조화 평균 (Harmonic Mean) 이 기존 방법 (CoOp, CoCoOp, MaPLe, PromptSRC 등) 보다 가장 높았습니다. 이는 베이스 클래스와 미시적 클래스 간의 균형 잡힌 일반화 능력을 보여줍니다.
Cross-Dataset Transfer: ImageNet 에서 학습하여 다른 10 개 데이터셋으로 제로샷 전이 시, 평균 정확도 68.04% 를 기록하여 2 위인 CoPrompt (66.99%) 보다 우월한 성능을 보였습니다.
Domain Generalization: ImageNet-V2, Sketch, A, R 등 다양한 도메인 시프트에 대해 가장 높은 평균 성능을 유지하며 강건성을 입증했습니다.
Few-Shot Classification: 1-shot, 2-shot 등 데이터가 극히 부족한 상황에서도 일관되게 높은 성능을 보였으며, 특히 1-shot 환경에서 과적합을 효과적으로 억제했습니다.
매니폴드 드리프트 분석 (Quantitative Analysis): PCA 를 이용한 드리프트 측정 ( $\Delta$ ) 에서 ManiPT 는 기존 방법들에 비해 드리프트 값이 현저히 낮거나 음수 (사전 학습 매니폴드 내부로 수렴) 를 보여, 제안된 방법이 실제로 매니폴드 이탈을 방지함을 입증했습니다.

5. 의의 및 결론 (Significance)

새로운 관점: 프롬프트 튜닝의 과적합 문제를 단순히 "규제"의 관점이 아닌, 기하학적 제약 (Geometric Confinement) 과 방향성 교정 (Directional Correction) 의 관점에서 해결했습니다.
효율성: 추가적인 파라미터는 거의 늘리지 않으면서 (약 0.25M 파라미터), 사전 학습된 지식의 보존과 새로운 작업 적응 사이의 최적 균형을 달성했습니다.
이론적 기반: 제한된 데이터 환경에서 모델이 왜 실패하는지에 대한 기하학적 설명과 이를 해결하기 위한 수학적 근거를 제공하여, 향후 저데이터 (Low-data) 환경의 비전 - 언어 모델 적응 연구에 중요한 통찰을 제공합니다.

요약하자면, ManiPT는 CLIP 과 같은 대규모 모델의 사전 학습된 지식을 보존하면서, 제한된 데이터로 새로운 작업을 학습할 때 발생할 수 있는 "기하학적 이탈"을 방지하는 메커니즘을 도입하여, 더 강력하고 일반화 가능한 프롬프트 튜닝을 가능하게 한 획기적인 방법론입니다.