DODO: Discrete OCR Diffusion Models

이 논문은 오토레그레시브 방식의 병목 현상을 해결하기 위해 블록 이산 확산 모델을 도입하여 OCR 작업에서 정확도를 유지하면서 추론 속도를 최대 3 배까지 향상시킨 새로운 비전 - 언어 모델 'DODO'를 제안합니다.

Sean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "조심스럽게 한 글자씩 쓰는 비서"

지금까지 컴퓨터가 사진 속 글자를 읽을 때 주로 썼던 방식은 ** autoregressive **(자기회귀) 방식이었습니다.

  • 비유: 한 비서가 아주 조심스럽게 한 글자씩 순서대로 글을 써 내려가는 상황이라고想象해 보세요.
    • "안녕하세요"라고 쓰려면, '안'을 쓰고, 그다음 '녕'을 쓰고, 그다음 '하'를 써야 합니다.
    • 만약 문장이 100 자라면, 비서는 100 번이나 펜을 들어야 합니다.
    • 문제점: 문서가 길어질수록 시간이 너무 오래 걸립니다. (예: 긴 계약서나 책 한 장을 읽는 데 시간이 많이 걸림)

2. DODO 의 아이디어: "한 번에 여러 줄을 동시에 채우는 마법사"

연구팀은 "글자는 사진에 이미 정해져 있으니, 한 번에 여러 글자를 동시에 맞춰볼 수 있지 않을까?"라고 생각했습니다. 이때 **확산 모델 **(Diffusion Model) 기술을 적용했습니다.

  • 비유: 빈 종이가 있고, 그 위에 모든 글자가 가려진 상태라고 상상해 보세요.
    • 기존 방식은 가려진 글자를 하나씩만 벗겨냈다면, DODO 는 한 번에 여러 글자의 가리개를 동시에 벗겨냅니다.
    • "이 부분은 '안녕하세요'일 확률이 높고, 저 부분은 '감사합니다'일 것 같아"라고 여러 곳을 동시에 추측해서 채워 넣습니다.
    • 장점: 100 자를 읽는 데 100 번이 아니라, 몇 번의 큰 동작으로 끝낼 수 있어 속도가 3 배 이상 빨라집니다.

3. 하지만, 여기서 함정이 있었습니다: "동시 작업의 부작용"

그런데 무작정 한 번에 여러 글자를 동시에 맞추려고 하면 큰 실수가 날 수 있었습니다.

  • 비유: 한 번에 100 개의 빈칸을 채우려고 하는데, 글자 순서나 위치를 잘못 맞추는 경우가 생깁니다.
    • 예를 들어, "안녕하세요"라고 써야 하는데, "안녕"을 10 칸 뒤에 쓰고 "하세요"를 1 칸 앞에 써버리는 식입니다.
    • **창의적인 글쓰기 **(이미지 설명)는 "고양이가 나무에 올라가 있다"라고 쓰든 "나무에 고양이가 있다"라고 쓰든 의미가 통하니까 괜찮습니다.
    • 하지만 OCR(문서 읽기)은 정확한 순서가 생명입니다. "안녕하세요"를 "하세요안녕"으로 쓰면 완전히 다른 뜻이 되거나 틀린 답이 됩니다.
    • 기존 확산 모델은 이런 순서 오류를 수정할 수 없어서, 글자가 뒤죽박죽 섞이거나 아예 읽히지 않는 '파괴적인 결과'를 낳았습니다.

4. DODO 의 해결책: "작은 블록으로 나누어 동시에 채우기"

연구팀은 이 문제를 해결하기 위해 DODO라는 새로운 방식을 개발했습니다. 핵심은 "**블록 **(Block)"입니다.

  • 비유: 긴 글을 한 번에 다 쓰려고 하지 말고, **작은 블록 **(예: 한 문단씩)으로 나누어 생각하세요.
    1. 첫 번째 블록: "안녕하세요" 부분을 한 번에 맞춰봅니다. (이제 이 부분은 고정됩니다.)
    2. 두 번째 블록: 첫 번째 블록이 확정되었으니, 그다음 "감사합니다" 부분을 한 번에 맞춰봅니다.
    3. 세 번째 블록: 앞선 블록들을 바탕으로 다음 부분을 채웁니다.

이렇게 **작은 덩어리 **(블록)를 적용하면:

  • 속도: 한 번에 여러 글자를 동시에 채우므로 여전히 빠릅니다.
  • 정확도: 앞의 블록이 확정되었으니, 뒤의 글자가 그 순서에 맞춰 자연스럽게 이어집니다. 글자 순서가 뒤섞이는 실수를 방지할 수 있습니다.

5. 결론: 왜 이것이 중요한가요?

  • 기존 방식: 정확하지만 느림 (한 글자씩 순서대로).
  • 기존 확산 모델: 빠르지만 정확하지 않음 (글자 순서가 뒤섞임).
  • DODO: 정확하면서도 매우 빠름.

이 기술은 긴 문서, 복잡한 표, 수학 공식이 포함된 문서도 기존 방식보다 최대 3 배 더 빠르게 정확하게 읽을 수 있게 해줍니다. 마치 한 번에 여러 페이지를 동시에 스캔하고 정리하는 초고속 비서가 생긴 것과 같습니다.

한 줄 요약:

"글자를 읽을 때, 한 글자씩 천천히 쓰거나 (느림), 한 번에 다 쓰려다 실수하는 (틀림) 방식 대신, **작은 덩어리씩 나누어 동시에 정확하게 채워 넣는 **(빠르고 정확함) 새로운 방식을 개발했습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →