MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

이 논문은 희귀 토큰의 불안정성을 해결하고 텍스트의 지식을 시각적 개념에 효과적으로 결합하기 위해 교차 모달 지식 전이를 활용한 'MoKus' 프레임워크와 새로운 벤치마크 'KnowCusBench'를 제안하여 지식 인식 개념 커스터마이징 성능을 획기적으로 향상시켰습니다.

Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "이름 없는 비밀 번호" (기존 방식)

기존의 AI 그림 기술 (예: 드림부스) 은 새로운 사물을 가르칠 때, "" 같은 이상하고 의미 없는 비밀 번호를 만들어서 그 사물과 연결했습니다.

  • 비유: 마치 친구에게 "내 친구는 **'X-99'**라고 불러줘"라고 가르치는 것과 같습니다.
  • 한계:
    • 불안정함: AI 는 'X-99'라는 단어가 무엇인지 전혀 모릅니다. 그래서 "X-99 가 나무 의자에 앉아 있어"라고 하면, 의자는 잘 나오는데 친구는 엉뚱한 모양으로 나올 수 있습니다.
    • 지식 부재: 이 비밀 번호에는 친구의 이름, 성격, 좋아하는 음식 같은 정보가 담겨있지 않습니다. "내 친구는 덴마크에 있는 인어공상 조각상이다"라고 해도 AI 는 그 정보를 이해하지 못합니다.

2. 해결책: "지식 있는 안내자" (MoKus 의 방식)

MoKus 는 이 문제를 해결하기 위해 두 단계로 나누어 작업을 합니다.

1 단계: "정체성 카드" 만들기 (시각 학습)

먼저, 가르치고 싶은 사물 (예: 내 친구인 인어공상 조각상) 의 모습을 AI 가 잘 기억할 수 있도록 **'정체성 카드 **(앵커)를 만듭니다.

  • 이 카드는 사물의 외모를 완벽하게 저장해 둡니다. 하지만 아직은 이름이나 정보가 없습니다.

2 단계: "지식 연결"하기 (텍스트 지식 업데이트)

이제 이 '정체성 카드'에 지식을 붙여줍니다.

  • 비유: 이 카드를 AI 의 두뇌 (텍스트 생성기) 에 연결하고, "이 조각상은 덴마크에 있다", "이건 내 favorite 이다", "청동으로 만들어졌다" 같은 문장들을 질문과 답변 형태로 입력합니다.
  • 핵심 발견: MoKus 는 놀라운 사실을 발견했습니다. **"텍스트 **(지식)는 것입니다.
    • 즉, AI 의 두뇌에 "이건 덴마크 조각상이야"라고 가르쳐주면, 그림을 그릴 때 AI 는 자연스럽게 그 정보를 반영해서 그림을 그립니다.

3. MoKus 의 장점: "유연하고 똑똑한 화가"

이 방식이 왜 좋은지 다시 비유해 보겠습니다.

  • 안정성: "X-99" 같은 비밀 번호 대신, AI 가 이미 잘 아는 자연어 (예: "내 친구", "덴마크 조각상") 를 사용하므로, 어떤 문장과 섞여도 그림이 망가지지 않습니다.
  • 지식 활용: "덴마크에 있는 조각상"이라고 입력하면, AI 는 배경을 바다나 항구로 자연스럽게 그려냅니다.
  • 빠른 속도: 새로운 지식을 가르치는 데 걸리는 시간이 몇 초뿐입니다. (기존 방식은 몇 시간 걸림)

4. MoKus 로 할 수 있는 신기한 일들

이 기술은 그림 그리는 것뿐만 아니라 더 많은 일을 할 수 있습니다.

  1. 가상 캐릭터 창조: "검은 머리에 노란 피부, 흰 수염을 가진 노인"이라는 지식만 입력하면, AI 는 그 이름으로 불릴 때마다 그 캐릭터를 그려줍니다. (실제 사진이 없어도 가능!)
  2. **개념 삭제 **(Erasure) "테일러 스위프트는 검은 머리를 가졌다"라고 지식을 수정하면, AI 는 테일러 스위프트를 그릴 때 검은 머리를 그리게 되어, 원래 모습을 지울 수 있습니다.
  3. 세계 지식 향상: AI 가 모르는 사실 (예: "파키스탄에서 인기 있는 스포츠는 크리켓이다") 을 가르쳐주면, AI 가 그 스포츠를 그릴 때 정확한 장면을 그려냅니다.

요약

MoKus는 AI 에게 그림을 그릴 때 단순히 "무엇을" 그릴지뿐만 아니라, **"그것에 대한 어떤 이야기 **(지식)를 함께 기억하게 해주는 기술입니다.

  • 기존: "이건 비밀번호야. (그림은 잘 나오지만, 정보는 없음)"
  • MoKus: "이건 내 친구야, 덴마크에 살고 있고, 내가 제일 좋아해. (그림도 잘 나오고, 정보도 반영됨)"

이 기술은 앞으로 AI 가 우리의 아이디어를 더 정확하고 창의적으로 구현하는 데 큰 역할을 할 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →