DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 'DiffInk(디프잉크)' 라는 새로운 인공지능 기술을 소개합니다. 이 기술은 컴퓨터가 사람의 손글씨를 그대로 모방해서, 한 줄의 문장 전체를 자연스럽게 써내려가게 해줍니다.

기존의 기술들과 어떻게 다른지, 그리고 왜 이것이 혁신적인지 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 기술의 문제점: "레고 블록을 붙여 쓴 글"

기존의 손글씨 생성 AI 들은 마치 레고 블록을 하나하나 조립하듯 작동했습니다.

방식: '가', '나', '다' 같은 글자 하나하나를 따로따로 만들어서, 나중에 그걸 이어붙여 문장을 만들었습니다.
문제점:
- 부자연스러운 연결: 글자 사이가 딱딱하게 이어지거나, 간격이 어색해서 마치 기계가 만든 것처럼 보였습니다. (레고 블록을 붙였을 때 생기는 틈새처럼요.)
- 스타일 불일치: 같은 사람이라도 글자마다 필체가 조금씩 달라질 수 있는데, 기존 기술은 글자마다 스타일이 통일되지 않아 "누가 쓴 글인지" 모호해졌습니다.
- 비효율: 문장 전체를 한 번에 생각하지 않고 글자 하나하나를 고민하느라 시간이 많이 걸렸습니다.

2. DiffInk 의 해결책: "실제 사람이 펜으로 한 번에 쓰는 느낌"

DiffInk 는 이 문제를 해결하기 위해 전체 문장을 한 번에 상상하고 그려내는 방식을 사용합니다.

🎨 비유 1: "인쇄소 vs. 화가"

기존 기술 (인쇄소): 글자 모양을 미리 찍어낸 스탬프를 하나씩 찍어서 문장을 만듭니다. 깔끔하지만 생동감이 없고, 줄이 휘어지거나 기울어지는 자연스러운 흐름이 없습니다.
DiffInk (화가): 화가가 캔버스 위에 붓을 대고 한 줄의 시를 한 번에 써내려가는 것과 같습니다. 붓의 압력, 속도, 기울기, 그리고 글자 사이의 연결이 자연스럽게 이어집니다.

🧠 비유 2: "악보 읽기 vs. 즉흥 연주"

기존 기술: 악보의 각 음표 (글자) 를 하나씩 보고 연주를 합니다.
DiffInk: 악보 전체를 보고, 특정 연주자 (스타일) 의 감성을 담아 즉흥적으로 연주합니다. 그래서 같은 곡이라도 '베토벤 스타일'로 치면 강렬하고, '모차르트 스타일'로 치면 경쾌하게 들리는 것처럼, 글자 내용과 쓰는 사람의 필체가 완벽하게 조화됩니다.

3. DiffInk 가 어떻게 작동할까요? (핵심 기술)

이 기술은 크게 두 단계로 이루어져 있는데, 이를 '인크 (Ink)' 라는 이름의 두 가지 도구로 설명할 수 있습니다.

① InkVAE (인크-베에이): "손글씨를 이해하는 마법 안경"

AI 가 손글씨를 배우기 위해 먼저 훈련하는 단계입니다.

역할: AI 는 단순히 글자를 복사하는 게 아니라, "이 글자는 어떤 모양인가?"(내용) 와 "누가 썼는가?"(스타일) 를 분리해서 이해해야 합니다.
비유: 마치 마법 안경을 끼고 글을 보면, 글자 모양은 초록색으로, 필체 스타일은 파란색으로 분리되어 보이는 것과 같습니다.
효과: AI 는 글자 내용과 스타일을 명확히 구분하는 '정리된 공간'을 만들게 되어, 나중에 원하는 스타일로 글을 쓸 때 혼란이 생기지 않습니다.

② InkDiT (인크-디트): "마법 붓"

이제 실제 글을 써내는 단계입니다.

역할: 위에서 만든 '정리된 공간'을 바탕으로, 사용자가 원하는 문장 (내용) 과 참고할 손글씨 샘플 (스타일) 을 입력받습니다.
작동 원리: AI 는 처음엔 잡음 (흰색 화면) 에서 시작해서, 마치 노이즈를 제거하며 그림을 완성하듯 (확산 모델), 천천히 선명한 손글씨를 그려냅니다.
결과: 글자 하나하나를 따로 그리는 게 아니라, 한 줄의 문장 전체를 자연스럽게 연결해서 그려냅니다.

4. 왜 이것이 중요한가요?

완벽한 자연스러움: 글자 사이의 연결이 끊어지지 않고, 실제 사람이 펜을 움직일 때처럼 부드럽습니다.
빠른 속도: 글자 하나하나를 따로 만들지 않고 한 줄을 통째로 그리기 때문에, 기존 기술보다 약 800 배 이상 빠릅니다. (예: 1 초에 58 자를 쓸 수 있음)
다양한 활용:
- OCR(문자 인식) 개선: AI 가 만든 자연스러운 손글씨 데이터를 학습시켜, 실제 손글씨를 더 잘 읽게 할 수 있습니다.
- 개인화 서비스: "나만의 필체로 편지 쓰기" 같은 서비스나, 게임 속 NPC 의 손글씨를 만들 때 유용합니다.

요약

DiffInk는 컴퓨터에게 "글자 하나하나를 찍지 말고, 사람처럼 한 줄의 글을 자연스럽게 써내려가라"고 가르친 기술입니다. 마치 마법 붓으로, 어떤 스타일이든 원하는 내용으로 완벽하게 일치하는 손글씨를 순식간에 만들어냅니다. 이는 손글씨 생성 분야에서 획기적인 도약이라고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

온라인 필기 생성 (Text-to-Online Handwriting Generation, TOHG) 은 텍스트 입력과 스타일 참조를 기반으로 현실적인 펜 궤적을 합성하는 작업입니다. 기존 연구들은 주로 글자 (Character) 또는 단어 (Word) 단위로 생성을 수행하는 방식에 집중해 왔습니다. 그러나 이러한 접근 방식은 다음과 같은 한계를 가집니다:

전체 문장 구조의 부재: 개별 글자를 생성한 후 레이아웃 모듈을 통해 붙이는 방식은 글자 간의 긴 의존성 (Long-range dependencies) 과 전체 문장 수준의 레이아웃 구조를 효과적으로 모델링하지 못합니다.
비효율성: 글자 단위로 순차적으로 생성하거나 레이아웃을 별도로 예측하는 과정은 계산 비용이 높고, 생성 속도가 느립니다.
자연스러움 결여: 개별 글자를 단순히 배치할 때 글자 간의 연결부나 간격이 비자연스러워지며, 필기체의 흐름 (Flow) 이 깨지는 현상이 발생합니다.

2. 제안 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 DiffInk를 제안했습니다. DiffInk 는 전체 텍스트 라인 (Full-line) 을 직접 모델링하는 최초의 잠재 공간 확산 (Latent Diffusion) Transformer 프레임워크입니다. 주요 구성 요소는 다음과 같습니다.

A. InkVAE (Glyph- and Style-Aware Sequential VAE)

확산 모델이 작동할 수 있는 구조화된 잠재 공간 (Latent Space) 을 학습하기 위해 설계된 변이 오토인코더 (VAE) 입니다.

기본 구조: 온라인 필기 궤적을 압축된 잠재 표현 (Latent Representation) 으로 인코딩하고, 이를 디코딩하여 원래 궤적을 재구성합니다.
이중 정규화 손실 (Dual Regularization Losses): 단순한 재구성 손실만으로는 잠재 공간이 의미 있는 구조를 갖지 못합니다. 이를 해결하기 위해 두 가지 추가 손실을 도입하여 잠재 공간에서 **내용 (Content)**과 **스타일 (Style)**을 효과적으로 분리 (Disentanglement) 합니다.
1. OCR 기반 손실 ( $L_{ocr}$ ): 잠재 공간에서 글자 수준의 정확성을 보장하기 위해 학습된 OCR 모듈을 사용하여 텍스트 인식을 수행하고 CTC 손실을 적용합니다. 이는 동일한 글자 클래스가 다른 필기체에서도 일관된 특징을 갖도록 합니다.
2. 스타일 분류 손실 ( $L_{sty}$ ): 필기자의 스타일을 보존하기 위해 잠재 표현을 기반으로 필기자 ID 를 분류하는 손실을 적용합니다. 이는 필자별 특징이 명확하게 군집화되도록 합니다.
효과: Figure 2 에서 보듯, InkVAE 는 Vanilla VAE 와 달리 글자 클래스별과 필자별 특징이 명확하게 분리된 구조화된 잠재 공간을 형성합니다.

B. InkDiT (Conditional Latent Diffusion Transformer)

InkVAE 가 학습한 구조화된 잠재 공간에서 실제 필기를 생성하는 확산 모델입니다.

조건부 생성: 목표 텍스트 (Content) 와 참조 필기 궤적 (Style Reference) 을 조건으로 받습니다.
- 내용 조건: 텍스트를 임베딩하여 ConvNeXt-V2 기반의 경량 콘텐츠 인코더를 통해 특징을 추출합니다.
- 스타일 조건: InkVAE 인코더를 사용하여 참조 궤적에서 스타일 특징을 추출합니다.
아키텍처: DiT (Diffusion Transformer) 구조를 사용하며, 노이즈가 추가된 잠재 벡터 ( $x_t$ ) 를 콘텐츠 및 스타일 조건과 함께 입력받아, 반복적인 디노이징 (Denoising) 과정을 통해 깨끗한 잠재 표현 ( $x_0$ ) 을 예측합니다.
생성 과정: DDIM 샘플링을 사용하여 잠재 공간에서 최종 궤적을 생성한 후, InkVAE 디코더를 통해 실제 온라인 필기 궤적으로 변환합니다.

3. 주요 기여 (Key Contributions)

DiffInk 프레임워크: 텍스트 라인 단위의 종단간 (End-to-End) 온라인 필기 생성을 위한 최초의 잠재 확산 Transformer 프레임워크를 제안했습니다.
InkVAE: OCR 기반 손실과 스타일 분류 손실을 도입하여 잠재 공간에서 내용과 스타일을 분리하고 구조화된 표현을 학습하는 새로운 VAE 를 개발했습니다.
InkDiT: 텍스트 내용과 참조 스타일을 동시에 조건으로 받아, 일관된 필기체와 자연스러운 글자 연결을 가진 궤적을 생성하는 확산 모델을 설계했습니다.
성능 입증: CASIA-OLHWDB 벤치마크에서 기존 최첨단 (SOTA) 방법들보다 글자 정확도, 스타일 충실도, 생성 효율성 모두에서 우수한 성능을 보였습니다.

4. 실험 결과 (Results)

CASIA-OLHWDB 2.0–2.2 데이터셋 (중국어 필기) 을 기반으로 한 실험 결과는 다음과 같습니다.

정량적 평가 (Quantitative Evaluation):
- 내용 정확도 (Content Fidelity): OCR 기반 정확도 (AR) 와 정답률 (CR) 이 각각 94.38%, **94.58%**로, 기존 SOTA 인 OLHWG (91.48%, 91.71%) 보다 약 3%p 향상되었습니다.
- 스타일 일관성 (Style Consistency): 필자 분류 정확도가 **77.38%**로, 기존 방법들 (OLHWG 44.74%, SDT 50.51% 등) 을 크게 상회했습니다. 이는 스타일과 레이아웃이 자연스럽게 통합되었음을 의미합니다.
- 구조적 유사성: 정규화된 DTW (Dynamic Time Warping) 거리가 1.049로 가장 낮아, 실제 필기 궤적과의 정렬도가 뛰어났습니다.
- 생성 효율성: 초당 생성 글자 수가 58.47 개로, OLHWG 보다 800 배 이상, SDT 보다 17 배 이상 빠른 속도를 기록했습니다.
정성적 평가 (Qualitative Evaluation):
- 기존 방법들은 글자 단위를 붙이는 과정에서 발생하는 비자연스러운 연결 (Stitching artifacts) 이나 글자 간 간격 오류가 발생했으나, DiffInk 는 전체 라인을 통합적으로 모델링하여 매끄러운 글자 전환과 자연스러운 레이아웃을 구현했습니다.
- t-SNE 시각화 결과, DiffInk 로 생성된 데이터는 실제 필기 데이터 분포와 매우 밀접하게 겹치는 것을 확인했습니다.

5. 의의 및 중요성 (Significance)

패러다임 전환: 기존 글자 단위 또는 레이아웃 분리 방식에서 벗어나, 전체 텍스트 라인을 하나의 시퀀스로 모델링하는 새로운 패러다임을 제시했습니다. 이는 필기체의 연속성과 구조적 의존성을 자연스럽게 포착합니다.
실용적 가치:
- OCR 성능 향상: 생성된 고품질 합성 데이터를 OCR 학습에 활용했을 때, 기존 모델의 정확도를 크게 향상시킬 수 있음을 입증했습니다.
- 개인화 및 HCI: 소량의 참조 데이터 (One-shot) 만으로도 사용자의 필기체를 모방한 개인화된 디지털 잉크 생성이 가능하며, 인간 - 컴퓨터 상호작용 시스템에 적용 가능합니다.
- 확장성: 중국어뿐만 아니라 영어 (IAM-OnDB) 와 같은 다른 언어에도 적용 가능함을 보여주어 범용적인 필기 생성 프레임워크로서의 가능성을 입증했습니다.

결론적으로, DiffInk 는 복잡한 필기 구조와 스타일 변이를 동시에 처리하면서도 높은 효율성을 갖춘 차세대 온라인 필기 생성 기술로서, OCR, 디지털 서명, 개인화 콘텐츠 생성 등 다양한 분야에서 중요한 기여를 할 것으로 기대됩니다.