Structure-Aware Text Recognition for Ancient Greek Critical Editions

이 논문은 고대 그리스 비평본의 복잡한 구조와 주석을 인식하기 위해 대규모 합성 데이터셋과 실사 벤치마크를 구축하고, 이를 통해 기존 오프더셸 소프트웨어를 능가하는 Qwen3VL-8B 모델을 포함한 최신 비주얼 언어 모델의 성능을 평가하여 구조 인식 기술의 한계와 가능성을 제시합니다.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot, Thibault Clérice

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 고대 그리스어 책을 디지털로 옮기는 아주 까다로운 문제를 해결하기 위해, 최신 인공지능 (AI) 기술을 어떻게 활용했는지 설명하는 연구입니다.

쉽게 비유하자면, 이 연구는 **"고대 도서관의 낡고 복잡한 책장을 AI 에게 읽어달라고 시켰는데, AI 가 처음엔 엉뚱한 소리를 하다가, 우리가 만든 '가상 교재'로 훈련시킨 뒤에는 비로소 전문가 수준으로 책을 읽어냈다"**는 이야기입니다.

주요 내용을 일상적인 비유로 풀어보면 다음과 같습니다.

1. 문제: 왜 고대 그리스어 책 읽기가 어려울까?

일반적인 책 (현대 소설 등) 은 글자가 줄줄이 이어져 있어 AI 가 읽기 쉽습니다. 하지만 **고대 그리스어 학술서 (Critical Editions)**는 다릅니다.

  • 비유: 마치 복잡한 지하철 지도를 읽는 것과 같습니다.
    • 본문 글자뿐만 아니라, 책 가장자리에 달린 주석 (Marginal notes), 글자 사이사이에 박힌 참고 번호, 그리고 머리말/꼬리말 등이 뒤죽박죽 섞여 있습니다.
    • 이 책들은 단순히 "글자"를 읽는 게 아니라, "어떤 글자가 어디에 위치해 있는지 (구조)"까지 이해해야 제대로 된 정보로 바꿀 수 있습니다.
    • 기존 AI 들은 이 복잡한 지도를 보고 "글자만 대충 읽으면 되지"라고 생각하다가, 중요한 주석을 놓치거나 글자 순서를 엉망으로 만들어 버렸습니다.

2. 해결책 1: AI 를 위한 '가상 교재' 만들기 (Synthetic Corpus)

실제 고대 책 스캔본은 너무 귀해서 AI 에게 많이 보여줄 수 없었습니다. 그래서 연구팀은 컴퓨터로 가상의 책 페이지 18 만 5 천 장을 만들어냈습니다.

  • 비유: 시뮬레이션 게임을 만드는 것과 같습니다.
    • 실제 역사적 책들의 내용을 바탕으로, 컴퓨터가 다양한 폰트, 배경, 글자 배열을 가진 가상의 책 페이지를 무수히 많이 생성했습니다.
    • AI 는 이 가상의 책들을 수없이 읽으며 "아, 주석은 여기 있고, 번호는 저기에 있구나"라는 패턴을 스스로 학습하게 됩니다.

3. 해결책 2: 실전 훈련 (Real Benchmark)

가상 교재만으로는 부족했죠. 연구팀은 실제 박물관에 있는 고대 책 450 장을 스캔해서 AI 에게 보여주고 테스트했습니다.

  • 비유: 가상 비행 시뮬레이터를 끝내도, 실제 하늘을 날아봐야 비로소 실력이 검증되는 것과 같습니다.

4. 결과: AI 가 어떻게 변했을까?

연구팀은 여러 최신 AI 모델 (VLM) 을 시험해 보았습니다.

  • 초기 상태 (Zero-shot): AI 에게 아무것도 가르치지 않고 바로 책을 읽게 했더니, 기존 전통적인 OCR(문자 인식) 프로그램보다 훨씬 못했습니다. 마치 비행 시뮬레이터도 안 해본 사람이 실제 비행기를 탔을 때처럼 엉망진창이었습니다.
  • 훈련 후 (Fine-tuning): 하지만 우리가 만든 '가상 교재'로 훈련시키고, 실제 책으로 다듬어주니 상황이 달라졌습니다.
    • 특히 Qwen3-VL-8B라는 모델이 가장 뛰어난 성과를 냈습니다.
    • 결과: 글자 하나를 틀릴 확률 (오류율) 이 1% 미만으로 떨어졌습니다. 이는 인간 전문가가 읽는 것과 거의 비슷할 정도로 정확한 수준입니다.

5. 중요한 발견: "글자"만 읽는 게 아니라 "구조"를 봐야 한다

이 연구의 가장 큰 교훈은 "글자를 정확히 읽는 것"과 "책의 구조를 이해하는 것"은 별개의 문제라는 점입니다.

  • 비유: AI 가 책의 내용을 완벽하게 외웠다고 해서, 책의 목차나 주석이 어디에 있는지 알 수 있는 것은 아닙니다.
    • 일부 AI 는 글자는 잘 읽는데, 책의 가장자리에 있는 중요한 주석을 아예 무시하거나, 글자 순서를 뒤죽박죽 섞어버리는 '환각 (Hallucination)' 현상을 보였습니다.
    • 하지만 잘 훈련된 AI 는 글자뿐만 아니라 **책의 구조 (어떤 부분이 제목이고, 어떤 부분이 주석인지)**까지 정확히 파악해 낼 수 있었습니다.

요약 및 결론

이 논문은 **"고대 책 같은 복잡하고 구조화된 문서를 디지털화하려면, 최신 AI 에게 단순히 글자를 읽히는 게 아니라, 책의 '레이아웃 (배치)'과 '구조'를 이해하도록 훈련시켜야 한다"**는 것을 증명했습니다.

  • 기존 방식: 글자만 인식하는 기계 (전통 OCR) 는 빠르고 안정적이지만, 복잡한 구조를 이해하기엔 한계가 있습니다.
  • 새로운 방식: 최신 AI 는 처음엔 어설퍼도, 적절한 훈련 (가상 데이터 + 실전 데이터) 을 받으면 구조까지 이해하는 천재가 될 수 있습니다.

결론적으로, 이 기술은 고대 문헌을 디지털로 보존하고 연구자들이 쉽게 검색할 수 있게 만드는 데 큰 역할을 할 것으로 기대됩니다. 다만, AI 를 훈련시키는 데 드는 비용과 에너지가 매우 크므로, 언제까지나 AI 를 써야 할지, 아니면 전통적인 방법을 섞어 써야 할지에 대한 고민도 함께 제시했습니다.