DODO: Discrete OCR Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

지금까지 컴퓨터가 사진 속 글자를 읽을 때 주로 썼던 방식은 ** autoregressive **(자기회귀) 방식이었습니다.

비유: 한 비서가 아주 조심스럽게 한 글자씩 순서대로 글을 써 내려가는 상황이라고想象해 보세요.
- "안녕하세요"라고 쓰려면, '안'을 쓰고, 그다음 '녕'을 쓰고, 그다음 '하'를 써야 합니다.
- 만약 문장이 100 자라면, 비서는 100 번이나 펜을 들어야 합니다.
- 문제점: 문서가 길어질수록 시간이 너무 오래 걸립니다. (예: 긴 계약서나 책 한 장을 읽는 데 시간이 많이 걸림)

연구팀은 "글자는 사진에 이미 정해져 있으니, 한 번에 여러 글자를 동시에 맞춰볼 수 있지 않을까?"라고 생각했습니다. 이때 **확산 모델 **(Diffusion Model) 기술을 적용했습니다.

비유: 빈 종이가 있고, 그 위에 모든 글자가 가려진 상태라고 상상해 보세요.
- 기존 방식은 가려진 글자를 하나씩만 벗겨냈다면, DODO 는 한 번에 여러 글자의 가리개를 동시에 벗겨냅니다.
- "이 부분은 '안녕하세요'일 확률이 높고, 저 부분은 '감사합니다'일 것 같아"라고 여러 곳을 동시에 추측해서 채워 넣습니다.
- 장점: 100 자를 읽는 데 100 번이 아니라, 몇 번의 큰 동작으로 끝낼 수 있어 속도가 3 배 이상 빨라집니다.

그런데 무작정 한 번에 여러 글자를 동시에 맞추려고 하면 큰 실수가 날 수 있었습니다.

비유: 한 번에 100 개의 빈칸을 채우려고 하는데, 글자 순서나 위치를 잘못 맞추는 경우가 생깁니다.
- 예를 들어, "안녕하세요"라고 써야 하는데, "안녕"을 10 칸 뒤에 쓰고 "하세요"를 1 칸 앞에 써버리는 식입니다.
- **창의적인 글쓰기 **(이미지 설명)는 "고양이가 나무에 올라가 있다"라고 쓰든 "나무에 고양이가 있다"라고 쓰든 의미가 통하니까 괜찮습니다.
- 하지만 OCR(문서 읽기)은 정확한 순서가 생명입니다. "안녕하세요"를 "하세요안녕"으로 쓰면 완전히 다른 뜻이 되거나 틀린 답이 됩니다.
- 기존 확산 모델은 이런 순서 오류를 수정할 수 없어서, 글자가 뒤죽박죽 섞이거나 아예 읽히지 않는 '파괴적인 결과'를 낳았습니다.

연구팀은 이 문제를 해결하기 위해 DODO라는 새로운 방식을 개발했습니다. 핵심은 "**블록 **(Block)"입니다.

비유: 긴 글을 한 번에 다 쓰려고 하지 말고, **작은 블록 **(예: 한 문단씩)으로 나누어 생각하세요.
1. 첫 번째 블록: "안녕하세요" 부분을 한 번에 맞춰봅니다. (이제 이 부분은 고정됩니다.)
2. 두 번째 블록: 첫 번째 블록이 확정되었으니, 그다음 "감사합니다" 부분을 한 번에 맞춰봅니다.
3. 세 번째 블록: 앞선 블록들을 바탕으로 다음 부분을 채웁니다.

이렇게 **작은 덩어리 **(블록)를 적용하면:

속도: 한 번에 여러 글자를 동시에 채우므로 여전히 빠릅니다.
정확도: 앞의 블록이 확정되었으니, 뒤의 글자가 그 순서에 맞춰 자연스럽게 이어집니다. 글자 순서가 뒤섞이는 실수를 방지할 수 있습니다.

이 기술은 긴 문서, 복잡한 표, 수학 공식이 포함된 문서도 기존 방식보다 최대 3 배 더 빠르게 정확하게 읽을 수 있게 해줍니다. 마치 한 번에 여러 페이지를 동시에 스캔하고 정리하는 초고속 비서가 생긴 것과 같습니다.

한 줄 요약:

"글자를 읽을 때, 한 글자씩 천천히 쓰거나 (느림), 한 번에 다 쓰려다 실수하는 (틀림) 방식 대신, **작은 덩어리씩 나누어 동시에 정확하게 채워 넣는 **(빠르고 정확함) 새로운 방식을 개발했습니다."

유사한 논문