GLM-OCR Technical Report

GLM-OCR 는 0.9B 파라미터의 경량 멀티모달 모델로, 멀티 토큰 예측 (MTP) 메커니즘과 2 단계 파이프라인을 통해 문서 이해, 텍스트 및 수식 전사, 표 구조 복원, 핵심 정보 추출 등 다양한 작업에서 높은 효율성과 최첨단 성능을 달성합니다.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📄 GLM-OCR: "작지만 강력한 문서 해독사" 이야기

이 논문은 **'GLM-OCR'**이라는 새로운 인공지능 모델을 소개합니다. 이 모델을 쉽게 설명하자면, **"거대한 도서관의 책장을 한 번에 훑어보며 복잡한 문서까지 척척 읽어내는, 작지만 똑똑한 비서"**라고 할 수 있습니다.

기존의 거대한 AI 모델들은 무겁고 느려서, 우리가 일상에서 빠르게 문서를 처리하기엔 비효율적이었습니다. 하지만 GLM-OCR은 **0.9B(9 억 개)**라는 매우 작은 크기임에도 불구하고, 거대한 모델들보다 더 빠르고 정확하게 문서를 이해합니다.

이 모델이 어떻게 작동하는지, 일상적인 비유로 설명해 드릴게요.


1. 🧩 두 단계로 나누는 '현명한 전략' (아키텍처)

기존의 AI 는 문서를 볼 때 마치 한 장의 큰 그림을 통째로 외우려는 사람처럼, 모든 것을 한 번에 이해하려고 애썼습니다. 하지만 복잡한 문서 (계약서, 영수증, 논문 등) 는 구조가 너무 다양해서 혼란스러울 수 있습니다.

GLM-OCR 은 이를 두 단계로 나누어 해결합니다.

  • 1 단계: 레이아웃 분석 (지도 만들기)
    먼저 PP-DocLayout-V3라는 '지도 제작자'가 문서를 훑어봅니다. "여기는 제목이야, 저기는 표야, 여기는 수식이야"라고 문서를 조각조각 잘게 나누는 역할을 합니다.

    • 비유: 복잡한 도시를 한 번에 다 보지 않고, 먼저 '이 구역은 상업지구, 저 구역은 주거지구'라고 구역을 나누는 것과 같습니다.
  • 2 단계: 병렬 인식 (동시 작업)
    나누어진 작은 조각들 (텍스트, 표, 수식 등) 을 여러 명의 전문가가 동시에 읽습니다.

    • 비유: 한 사람이 책을 다 읽는 대신, 친구 10 명이 각자 한 페이지씩 나누어 읽어서 훨씬 빠르게 내용을 파악하는 것과 같습니다.

2. 🚀 한 번에 여러 마디를 말하는 'MTP 기술'

기존 AI 는 말을 할 때 한 글자씩 천천히 내뱉습니다 ( autoregressive decoding). 긴 문서를 작성할 때 시간이 많이 걸리는 이유입니다.

GLM-OCR 은 MTP(멀티-토큰 예측) 기술을 도입했습니다.

  • 비유: 보통 사람이 "안...녕...하...세...요"라고 한 글자씩 말한다면, GLM-OCR 은 **"안녕하세요!"**라고 한 번에 뱉어냅니다.
  • 이 기술 덕분에 처리 속도가 약 50% 빨라졌지만, 메모리 사용량은 거의 늘지 않습니다. 마치 고속도로에서 차 한 대가 여러 대를 동시에 태우고 가는 것과 같습니다.

3. 🏆 왜 이 모델이 특별한가요? (성능)

이 모델은 **작은 크기 (0.9B)**임에도 불구하고, 거대한 모델들 (수천 억 개의 파라미터를 가진 모델들) 과 경쟁하거나 오히려 이기는 성과를 냈습니다.

  • OmniDocBench (문서 이해 테스트): 1 위를 차지했습니다. (작은 몸집으로 거인들을 이긴 셈!)
  • 표 (Table) 인식: 표의 구조를 완벽하게 복원하는 능력이 탁월합니다.
  • 수식 (Formula) 인식: 복잡한 수학 공식도 라텍스 (LaTeX) 코드로 정확하게 변환합니다.
  • 실제 현장 (Receipt, Seal 등): 영수증의 복잡한 글씨나 도장 인식에서도 뛰어난 성능을 보여줍니다.

4. 🛠️ 어디에 쓸 수 있나요? (사용 사례)

이 모델은 두 가지 방식으로 사용할 수 있습니다.

  1. SDK 를 통한 전체 문서 해독 (전문가 모드):

    • 복잡한 계약서, 논문, 보고서 전체를 **구조화된 데이터 (Markdown, JSON)**로 바꿔줍니다.
    • 예: "이 PDF 파일을 정리해서 표와 텍스트로 나누어 줘"라고 하면, AI 가 자동으로 구조를 파악해 정리해 줍니다.
  2. 베이스 모델을 통한 가벼운 작업 (간이 모드):

    • 특정 정보만 뽑아내고 싶을 때 사용합니다.
    • 예: "이 영수증에서 '총 금액'과 '날짜'만 JSON 으로 뽑아줘"라고 하면, 바로 그 정보만 추출해 줍니다.

5. 💡 요약: 왜 이 기술이 중요한가요?

기존의 거대 AI 모델들은 비싸고 무거워서 일반 기업이나 개인이 쓰기 힘들었습니다. 하지만 GLM-OCR 은:

  • 가볍습니다: 일반 컴퓨터나 모바일 기기에서도 빠르게 돌아갑니다.
  • 빠릅니다: 한 번에 여러 단어를 예측해서 처리 속도가 매우 빠릅니다.
  • 똑똑합니다: 복잡한 표와 수식도 잘 이해합니다.

결론적으로, GLM-OCR 은 "거창한 AI 가 아니더라도, 잘 설계된 작은 AI 가 실생활의 복잡한 문서 문제를 훨씬 효율적으로 해결할 수 있다"는 것을 증명하는 혁신적인 모델입니다. 이제 문서 처리는 더 이상 무겁고 느린 작업이 아니라, 가볍고 빠른 일이 될 것입니다.