DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

이 논문은 OCR 기반의 글자 정확도와 스타일 분류 손실을 통해 의미 구조 잠재 공간을 구축하고, 이를 기반으로 한 잠은 확산 트랜스포머 (InkDiT) 를 도입하여 기존 방법들의 한계를 극복하고 전체 텍스트 줄에 대한 고품질 온라인 필기 생성을 가능하게 하는 'DiffInk' 프레임워크를 제안합니다.

Wei Pan, Huiguo He, Hiuyi Cheng, Yilin Shi, Lianwen Jin

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 'DiffInk(디프잉크)' 라는 새로운 인공지능 기술을 소개합니다. 이 기술은 컴퓨터가 사람의 손글씨를 그대로 모방해서, 한 줄의 문장 전체를 자연스럽게 써내려가게 해줍니다.

기존의 기술들과 어떻게 다른지, 그리고 왜 이것이 혁신적인지 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 기술의 문제점: "레고 블록을 붙여 쓴 글"

기존의 손글씨 생성 AI 들은 마치 레고 블록을 하나하나 조립하듯 작동했습니다.

  • 방식: '가', '나', '다' 같은 글자 하나하나를 따로따로 만들어서, 나중에 그걸 이어붙여 문장을 만들었습니다.
  • 문제점:
    • 부자연스러운 연결: 글자 사이가 딱딱하게 이어지거나, 간격이 어색해서 마치 기계가 만든 것처럼 보였습니다. (레고 블록을 붙였을 때 생기는 틈새처럼요.)
    • 스타일 불일치: 같은 사람이라도 글자마다 필체가 조금씩 달라질 수 있는데, 기존 기술은 글자마다 스타일이 통일되지 않아 "누가 쓴 글인지" 모호해졌습니다.
    • 비효율: 문장 전체를 한 번에 생각하지 않고 글자 하나하나를 고민하느라 시간이 많이 걸렸습니다.

2. DiffInk 의 해결책: "실제 사람이 펜으로 한 번에 쓰는 느낌"

DiffInk 는 이 문제를 해결하기 위해 전체 문장을 한 번에 상상하고 그려내는 방식을 사용합니다.

🎨 비유 1: "인쇄소 vs. 화가"

  • 기존 기술 (인쇄소): 글자 모양을 미리 찍어낸 스탬프를 하나씩 찍어서 문장을 만듭니다. 깔끔하지만 생동감이 없고, 줄이 휘어지거나 기울어지는 자연스러운 흐름이 없습니다.
  • DiffInk (화가): 화가가 캔버스 위에 붓을 대고 한 줄의 시를 한 번에 써내려가는 것과 같습니다. 붓의 압력, 속도, 기울기, 그리고 글자 사이의 연결이 자연스럽게 이어집니다.

🧠 비유 2: "악보 읽기 vs. 즉흥 연주"

  • 기존 기술: 악보의 각 음표 (글자) 를 하나씩 보고 연주를 합니다.
  • DiffInk: 악보 전체를 보고, 특정 연주자 (스타일) 의 감성을 담아 즉흥적으로 연주합니다. 그래서 같은 곡이라도 '베토벤 스타일'로 치면 강렬하고, '모차르트 스타일'로 치면 경쾌하게 들리는 것처럼, 글자 내용과 쓰는 사람의 필체가 완벽하게 조화됩니다.

3. DiffInk 가 어떻게 작동할까요? (핵심 기술)

이 기술은 크게 두 단계로 이루어져 있는데, 이를 '인크 (Ink)' 라는 이름의 두 가지 도구로 설명할 수 있습니다.

① InkVAE (인크-베에이): "손글씨를 이해하는 마법 안경"

AI 가 손글씨를 배우기 위해 먼저 훈련하는 단계입니다.

  • 역할: AI 는 단순히 글자를 복사하는 게 아니라, "이 글자는 어떤 모양인가?"(내용)"누가 썼는가?"(스타일) 를 분리해서 이해해야 합니다.
  • 비유: 마치 마법 안경을 끼고 글을 보면, 글자 모양은 초록색으로, 필체 스타일은 파란색으로 분리되어 보이는 것과 같습니다.
  • 효과: AI 는 글자 내용과 스타일을 명확히 구분하는 '정리된 공간'을 만들게 되어, 나중에 원하는 스타일로 글을 쓸 때 혼란이 생기지 않습니다.

② InkDiT (인크-디트): "마법 붓"

이제 실제 글을 써내는 단계입니다.

  • 역할: 위에서 만든 '정리된 공간'을 바탕으로, 사용자가 원하는 문장 (내용)참고할 손글씨 샘플 (스타일) 을 입력받습니다.
  • 작동 원리: AI 는 처음엔 잡음 (흰색 화면) 에서 시작해서, 마치 노이즈를 제거하며 그림을 완성하듯 (확산 모델), 천천히 선명한 손글씨를 그려냅니다.
  • 결과: 글자 하나하나를 따로 그리는 게 아니라, 한 줄의 문장 전체를 자연스럽게 연결해서 그려냅니다.

4. 왜 이것이 중요한가요?

  1. 완벽한 자연스러움: 글자 사이의 연결이 끊어지지 않고, 실제 사람이 펜을 움직일 때처럼 부드럽습니다.
  2. 빠른 속도: 글자 하나하나를 따로 만들지 않고 한 줄을 통째로 그리기 때문에, 기존 기술보다 약 800 배 이상 빠릅니다. (예: 1 초에 58 자를 쓸 수 있음)
  3. 다양한 활용:
    • OCR(문자 인식) 개선: AI 가 만든 자연스러운 손글씨 데이터를 학습시켜, 실제 손글씨를 더 잘 읽게 할 수 있습니다.
    • 개인화 서비스: "나만의 필체로 편지 쓰기" 같은 서비스나, 게임 속 NPC 의 손글씨를 만들 때 유용합니다.

요약

DiffInk는 컴퓨터에게 "글자 하나하나를 찍지 말고, 사람처럼 한 줄의 글을 자연스럽게 써내려가라"고 가르친 기술입니다. 마치 마법 붓으로, 어떤 스타일이든 원하는 내용으로 완벽하게 일치하는 손글씨를 순식간에 만들어냅니다. 이는 손글씨 생성 분야에서 획기적인 도약이라고 할 수 있습니다.