Prompt Tuning for CLIP on the Pretrained Manifold

이 논문은 제한된 감독 하에서 프롬프트 튜닝 시 발생하는 사전 학습 매니폴드 이탈 문제를 해결하기 위해, 텍스트와 이미지 모달리티의 코사인 일관성 제약과 구조적 편향을 도입하여 사전 학습된 기하학적 이웃 내에 표현을 유지하도록 하는 ManiPT 프레임워크를 제안합니다.

Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 똑똑한 AI 의 딜레마

우리가 CLIP이라는 AI 모델을 생각해 봅시다. 이 모델은 수억 장의 사진과 글자를 보며 훈련되어, "개"와 "고양이"를 구별하거나 "해변"과 "산"을 알아보는 등 거의 모든 것을 아는 만능 전문가입니다.

하지만 이 전문가에게 새로운 특정 작업 (예: "희귀한 새 종류를 구별하는 것") 을 시키려면, 새로운 데이터로 다시 가르쳐야 합니다. 이때 두 가지 문제가 생깁니다.

  1. 전체 재학습 (Full Fine-tuning): 전문가의 두뇌를 모두 다시 가르치면 비용이 너무 많이 들고, 원래 알고 있던 지식이 망가질 수 있습니다.
  2. 프롬프트 튜닝 (Prompt Tuning): 전문가의 두뇌는 건드리지 않고, **작은 메모지 (프롬프트)**만 몇 장 붙여서 새로운 일을 지시하는 방법입니다. 이게 효율적이지만, 새로운 데이터가 너무 적을 때 (Few-shot) 문제가 생깁니다.

2. 문제: "길 잃은 학생" (Manifold Drift)

새로운 데이터가 적을 때, AI 는 새로운 일을 배우려고 **기존의 지혜로운 길 (Pretrained Manifold)**을 떠나 새로운, 하지만 위험한 길로 빠져나갑니다.

  • 비유: Imagine (상상해 보세요).
    • 기존 AI는 "전 세계의 지리를 잘 아는 여행 가이드"입니다.
    • 새로운 데이터는 "어떤 작은 마을의 지도"만 3 장 정도입니다.
    • 기존 방법 (일반 프롬프트 튜닝): 가이드가 3 장의 지도만 보고 "아, 이 마을은 이런 특징이 있구나!"라고 결론 내립니다. 그런데 그 3 장의 지도에 우연히 빨간 우산을 쓴 사람만 찍혀 있어서, AI 는 "이 마을 사람들은 모두 빨간 우산을 쓴다"라고 착각합니다.
    • 결과: AI 는 원래 알고 있던 지리 지식 (전 세계의 일반적인 사실) 을 버리고, **그 3 장의 지도에만 맞는 엉뚱한 규칙 (빨간 우산)**을 배우게 됩니다. 이를 **"만다폴드 드리프트 (Manifold Drift)"**라고 합니다. 즉, 지식 기반의 길에서 벗어나 엉뚱한 곳으로 헤매는 것입니다.

3. 해결책: ManiPT (길 잃지 않는 학습법)

이 논문은 **"기존의 지혜로운 길에서 벗어나지 않으면서, 새로운 일을 배우는 방법"**을 제안합니다. 이를 ManiPT라고 합니다.

ManiPT 는 두 가지 핵심 전략을 사용합니다.

전략 1: 나침반과 줄 (코사인 일관성 제약)

  • 비유: 가이드가 새로운 마을을 설명할 때, **원래 가지고 있던 세계 지도 (고정된 AI)**와 **새로운 메모지 (학습된 프롬프트)**를 동시에 봅니다.
  • 원리: 새로운 설명이 원래 지도의 방향과 너무 멀어지지 않도록 **나침반 (코사인 유사도)**으로 계속 확인합니다. 만약 "빨간 우산" 같은 엉뚱한 규칙을 배우려고 하면, 나침반이 "아니야, 그건 원래 지도와 너무 달라!"라고 경고하며 제자리에 잡습니다.
  • 효과: AI 가 새로운 데이터의 **우연한 특징 (배경, 텍스처 등)**에 속아 넘어가는 것을 막아줍니다.

전략 2: 점진적인 수정 (구조적 편향)

  • 비유: 가이드가 새로운 마을을 설명할 때, 원래의 설명을 완전히 지우고 새로 쓰는 게 아니라, 원래 설명 위에 작은 메모를 덧붙이는 방식입니다.
  • 원리: "원래는 '개'가 4 발로 걷는데, 이 새로운 개는 꼬리를 흔드는 게 특징이야"라고 기존 지식 위에 점진적으로 수정을 가합니다.
  • 효과: AI 가 처음부터 완전히 새로운 (하지만 틀린) 규칙을 만들지 않고, **이미 검증된 지식 (전통)**을 바탕으로 작은 보정만 하도록 유도합니다. 이렇게 하면 데이터가 적어도 **과도하게 과적합 (Overfitting)**되지 않습니다.

전략 3: LLM 을 활용한 풍부한 설명

  • 비유: 단순히 "개"라고만 적는 게 아니라, **LLM(거대 언어 모델)**에게 "털이 있고 귀가 처진 4 발 동물"처럼 풍부하고 정확한 설명을 미리 만들어 두었습니다.
  • 효과: AI 가 새로운 데이터를 볼 때, 빈약한 데이터만 보고 착각하는 대신, 풍부한 사전 지식을 기준으로 삼아 더 정확하게 학습합니다.

4. 결과: 왜 이 방법이 좋은가요?

이 방법을 사용하면 다음과 같은 이점이 있습니다.

  • 새로운 것에도 강함: 처음 보는 동물이나 사물 (Unseen Class) 을 잘 구별합니다.
  • 데이터가 적어도 됨: 사진이 1 장뿐이어도 (1-shot) 잘 작동합니다.
  • 다른 환경에서도 잘 됨: 날씨나 화질이 달라져도 (Domain Generalization) 원래 지식을 잃지 않고 적응합니다.

요약

ManiPT는 AI 가 새로운 일을 배울 때 **"기존의 지혜로운 길 (Manifold) 을 떠나지 않고, 그 길 위를 따라 조금만 수정 (Incremental Correction) 하여 새로운 목적지에 도달하는 방법"**입니다.

기존의 AI 는 "새로운 데이터만 보고 엉뚱한 길로 빠지는 학생"이었다면, ManiPT 는 **"선생님 (기존 AI) 의 지도를 믿으면서도, 작은 메모 (프롬프트) 로 새로운 정보를 정확히 추가하는 똑똑한 학생"**으로 만들어줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →