Is CLIP ideal? No. Can we fix it? Yes!

이 논문은 CLIP 의 잠재 공간이 특정 기하학적 한계를 가지므로 이를 해결하기 위해 이미지 패치와 텍스트 토큰의 의미적 위상을 유지하는 '밀집 코사인 유사도 맵 (DCSM)'을 제안하여 기존 모델의 성능을 획기적으로 개선했다고 주장합니다.

Raphi Kang, Yue Song, Georgia Gkioxari, Pietro Perona

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

CLIP 는 완벽하지 않다? 네, 맞습니다! 하지만 우리는 그걸 고칠 수 있습니다.

이 논문은 인공지능이 이미지와 텍스트를 어떻게 이해하는지에 대한 흥미로운 이야기를 담고 있습니다. 핵심은 **"기존의 유명한 AI 모델 (CLIP) 은 근본적인 결함이 있지만, 우리가 그걸 고쳐서 더 똑똑하게 만들 수 있다"**는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. CLIP 이란 무엇인가? (우리의 '초능력' 친구)

CLIP 은 이미지와 텍스트를 동시에 이해하도록 훈련된 AI 입니다. 마치 **"눈과 귀를 모두 가진 친구"**처럼, 사진 한 장을 보고 "이건 강아지야"라고 말하거나, "강아지"라는 말을 듣고 강아지 사진을 찾아내는 일을 합니다.

기존의 CLIP 은 이 분야에서 매우 훌륭합니다. 하지만 완벽하지는 않아요. 특히 복잡한 상황을 이해하는 데서 실수를 합니다.

2. CLIP 의 문제점: "혼동쟁이 친구"

CLIP 이 왜 실수를 할까요? 저자들은 CLIP 의 뇌 (잠재 공간) 가 기하학적으로 (수학적으로) 결함이 있다고 증명했습니다.

비유: "색깔과 모양이 뒤섞인 상자"
상상해 보세요. CLIP 이 정보를 저장하는 방식은 모든 것을 하나의 큰 원형 방 (단위 초구) 에 넣는 것과 같습니다.

  • 문제 상황: "빨간 공"과 "파란 삼각형"이 있는 사진을 보고, "빨간 삼각형과 파란 공"이라는 문장을 입력하면 CLIP 은 둘을 구분하지 못합니다.
  • 왜 그럴까? CLIP 의 수학 구조상, "빨간 공"과 "파란 삼각형"을 섞어서 "빨간 삼각형"과 "파란 공"을 만들면, 두 결과가 완전히 똑같은 위치에 놓이게 됩니다. 마치 주사위를 던져서 1 과 2 를 더한 결과와 2 와 1 을 더한 결과가 똑같아서, 어떤 숫자가 먼저 나왔는지 기억할 수 없는 것과 같습니다.

이로 인해 CLIP 은 다음과 같은 일을 엉망으로 처리합니다:

  1. 속성 결합 실패: "빨간 차"와 "검은 버스"를 구별하지 못함.
  2. 공간 관계 혼동: "차가 버스 왼쪽에 있다"와 "버스가 차 왼쪽에 있다"를 똑같이 취급함.
  3. 부정 (Not) 이해 불가: "노란 코트가 아닌 것"을 검색하면 노란 코트가 나올 수도 있음.

저자들은 **"CLIP 의 기본 설계도가 이 세 가지 (속성, 공간, 부정) 중 두 가지는 동시에 완벽하게 처리할 수 없도록 되어 있다"**고 수학적으로 증명했습니다. 즉, 기존 방식으로는 CLIP 을 완벽하게 고칠 수 없다는 뜻입니다.

3. 우리의 해결책: DCSM (밀도 높은 지도)

그렇다면 포기해야 할까요? 아닙니다! 저자들은 CLIP 을 완전히 버리는 대신, CLIP 이 가진 정보를 더 똑똑하게 읽는 방법을 고안했습니다.

비유: "단순한 점수판 vs 상세한 지도"

  • 기존 CLIP 방식: 이미지와 문장을 비교할 때, 마치 두 점 사이의 거리 하나만 재는 것과 같습니다. "이게 맞나요? 아니요?"라고 점수 (코사인 유사도) 만 줍니다. 그래서 복잡한 관계를 놓칩니다.
  • 새로운 방식 (DCSM): 우리는 이미지와 문장을 비교할 때, 이미지의 각 조각 (패치) 과 문장의 각 단어 (토큰) 를 모두 서로 비교합니다.
    • 마치 이미지 한 장을 100 개의 작은 조각으로 나누고, 문장의 각 단어가 그 조각 중 어디에 해당하는지 **상세한 지도 (맵)**를 그리는 것입니다.
    • "빨간"이라는 단어가 "공"이 있는 조각과 얼마나 잘 맞는지, "삼각형"이 있는 조각과는 얼마나 안 맞는지 모든 조합을 체크합니다.

이렇게 하면 CLIP 이 원래 가진 정보를 잃지 않으면서도, 어떤 단어가 이미지의 어떤 부분에 해당하는지를 훨씬 정밀하게 파악할 수 있습니다.

4. 어떻게 작동할까요? (작은 두뇌 추가)

우리는 이 상세한 지도 (DCSM) 를 만들어낸 후, 아주 작고 간단한 **CNN(합성곱 신경망)**이라는 작은 두뇌를 붙여줍니다. 이 작은 두뇌는 지도 위의 패턴을 보고 "아, 이 문장은 이 사진과 정확히 일치하는구나!"라고 판단합니다.

  • 장점: CLIP 을 처음부터 다시 훈련시킬 필요 없이, 기존 CLIP 위에 얹어서만 작동합니다.
  • 효과: 기존 CLIP 이 틀렸던 "빨간 공 vs 파란 삼각형" 문제나 "왼쪽 vs 오른쪽" 문제를 놀라운 정확도로 해결합니다.

5. 결론: "완벽한 친구는 없지만, 더 똑똑하게 만들 수 있다"

이 논문의 핵심 메시지는 다음과 같습니다.

"CLIP 이 가진 **기본적인 설계 (기하학)**에는 한계가 있어서, 단순히 더 많은 데이터를 주거나 훈련을 더 시킨다고 해서 모든 문제가 해결되지 않습니다. 하지만 우리가 정보를 보는 방식을 바꾸면 (단순 점수 -> 상세 지도), 그 한계를 극복하고 훨씬 더 똑똑한 AI 를 만들 수 있습니다."

우리는 CLIP 이라는 훌륭한 친구의 능력을 최대한 끌어올려, 복잡한 상황에서도 실수하지 않는 더 똑똑한 파트너로 업그레이드했습니다. 이제 AI 는 "빨간 공"과 "파란 삼각형"을 명확히 구분하고, "노란 코트가 아닌 것"을 정확히 찾아낼 수 있게 되었습니다!