A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

이 논문은 현대적이고 서구 중심적인 평가 기준이 역사적 문서, 특히 흑인 역사 신문의 OCR 시스템 성능을 제대로 평가하지 못해 구조적 무형과 대표성 해악을 초래한다는 점을 PRISMA 프레임워크를 통해 분석하고, 이러한 격차의 원인을 조직적·제도적 구조에서 찾으며 개선 방안을 제시합니다.

Fitsum Sileshi Beyene, Christopher L. Dancy

게시일 2026-03-30
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "유능한 번역가지만, '옛날 방'을 모르는 사람"

이 논문의 주인공은 OCR(광학 문자 인식) 기술입니다. 쉽게 말해, **"종이에 적힌 글자를 컴퓨터가 읽어서 텍스트로 바꿔주는 기술"**이죠.

최근 이 기술은 정말 똑똑해져서, 복잡한 문서의 구조까지 이해하고 번역까지 해냅니다. 하지만 문제는 이 똑똑한 컴퓨터가 '배운 것'과 '실제 필요한 것'이 너무 다르다는 점입니다.

1. 컴퓨터는 어떤 '학교'를 다녔을까? (편향된 교육)

현재 가장 똑똑한 OCR 모델들은 현대적인 기업 문서, 과학 논문, 깔끔한 PDF들로만 훈련받았습니다.

  • 비유: 이 컴퓨터가 마치 **"최신 고층 빌딩과 깔끔한 사무실"**에서만 자란 사람이라고 상상해 보세요.
  • 문제: 이 사람이 갑자기 **"19 세기 흑인 신문"**을 읽으라고 하면 어떨까요?
    • 그 신문은 종이 상태가 낡고 (미세필름 스캔), 글씨체가 독특하며 (고딕체), 기사가 여러 열 (Column) 로 복잡하게 나뉘어 있습니다.
    • 컴퓨터는 "이건 뭐야? 글자가 너무 많고 지저분해!"라고 생각하며, 글자 하나하나의 철자만 맞으면 된다고 생각합니다.

2. "철자 맞췄으니 100 점!"이라는 착각 (잘못된 채점 기준)

지금까지 컴퓨터의 실력을 평가할 때는 **'철자 오류율 (CER)'**만 봤습니다.

  • 비유: 시험지를 채점할 때, 문장의 순서나 단락 구조는 무시하고, 오직 '철자'만 맞으면 100 점을 주는 것과 같습니다.
  • 현실: 컴퓨터는 흑인 신문의 복잡한 기사의 순서를 완전히 뒤죽박죽으로 섞어놔도, 글자 하나하나만 틀리지 않았다면 "완벽하게 읽었다!"라고 평가받습니다.
  • 결과: 컴퓨터는 신문의 **정치적 메시지나 편집자의 의도 (예: 특정 기사를 강조하기 위해 3 열로 배치한 것)**를 완전히 무시하고, 글자만 기계적으로 뽑아냅니다. 마치 책의 내용을 다 읽었는데, 책장을 다 찢어버린 상태와 같습니다.

3. "보이지 않는" 역사 (실제 피해)

이 논문은 특히 **미국 흑인 역사 신문 (예: 'The North Star', 'Freedom's Journal')**을 사례로 들었습니다.

  • 이 신문들은 흑인 커뮤니티의 목소리를 내고, 당시 백인 주류 언론이 다루지 않았던 중요한 이야기를 담고 있습니다.
  • 하지만 컴퓨터가 이걸 제대로 읽지 못하면, 역사가 '지워진' 것과 같습니다.
  • 비유: 마치 보물상자를 열었는데, 열쇠 구멍이 낡아서 자물쇠는 열렸지만, 안의 보물은 모두 흩어져서 찾을 수 없게 된 상황입니다. 컴퓨터는 "열쇠 구멍은 잘 열었어 (철자는 맞췄어)"라고 하지만, 보물 (역사의 의미) 은 사라진 것입니다.

4. 왜 이런 일이 일어날까? (시스템의 구조적 문제)

저자들은 이것이 단순히 기술이 부족해서가 아니라, 우리가 무엇을 '중요한 데이터'로 여기느냐의 문제라고 말합니다.

  • 비유: 요리 학교에서 현대적인 스테이크 요리만 가르치고, 전통적인 흑인 요리 (소울 푸드) 는 '특별한 레시피'로 취급하지도 않는 상황입니다.
  • 데이터셋을 만드는 기관이나 벤치마크 (시험지) 를 만드는 사람들이 현대적이고 서구적인 문서만 '표준'으로 정해놓았기 때문에, 흑인 역사 문서는 계속 '예외'로 취급받으며 제대로 평가받지 못합니다.

💡 이 논문이 제안하는 해결책

이 연구는 단순히 "기술을 더 발전시키자"는 것을 넘어, **"평가 기준을 바꾸자"**고 외칩니다.

  1. 새로운 시험지 만들기: 단순히 철자만 맞는지 보는 게 아니라, 문서의 구조가 무너지지 않았는지, 글자의 배열이 원래 의도대로 유지되었는지를 보는 새로운 평가 기준이 필요합니다.
  2. 다양한 교재 도입: 컴퓨터를 훈련시킬 때 현대 문서뿐만 아니라, 낡고 복잡한 역사 문서들도 포함시켜야 합니다.
  3. 문화적 감수성: 기술이 단순히 '글자를 읽는 것'을 넘어, 그 글자가 담고 있는 역사적, 문화적 의미를 훼손하지 않도록 설계되어야 합니다.

📝 한 줄 요약

"컴퓨터가 옛날 흑인 신문을 읽을 때, 글자만 정확히 읽었다고 해서 '성공'이라고 하면 안 됩니다. 그 신문의 복잡한 구조와 역사적 의미를 보존하면서 읽어야 진정한 성공입니다. 지금의 평가 방식은 그 중요한 의미를 '보이지 않게' 만들고 있습니다."

이 논리는 인공지능이 더 공정하고, 모든 사람의 역사를 존중하는 방향으로 발전하려면, 우리가 **'무엇을 기준으로 평가할 것인가'**를 다시 한번 깊이 생각해야 함을 일깨워줍니다.