From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

이 논문은 디지털 인문학 파이프라인에서 OCR 수정의 계보를 문서화하여 수정 이력이 하류 NLP 작업과 학문적 해석에 미치는 영향을 추적하고, 재현성과 불확실성 인식을 위한 분석 레이어로 프로버넌스를 통합할 것을 제안합니다.

Haoze Guo, Ziqi Wei

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📜 이야기의 시작: 낡은 편지 정리하기

연구자들은 도서관이나 박물관에 있는 **오래된 역사 문서 **(편지, 신문, 일기 등)를 스캔해서 컴퓨터로 읽을 수 있게 만듭니다. 이때 **OCR **(광학 문자 인식)이라는 기술이 사용되는데, 이는 마치 컴퓨터가 눈으로 글을 읽는 역할을 합니다.

하지만 문제는 이 컴퓨터가 글을 읽는 게 완벽하지 않다는 점입니다.

  • 종이가 누렇게 변했거나, 글씨가 흐릿하거나, 낯선 옛날 글자를 쓰면 컴퓨터는 엉뚱한 글자를 읽습니다.
    • 예: "Madison"을 "Madifon"으로 잘못 읽음.

그래서 연구자들은 이 오류를 고치기 위해 **수정 **(Correction) 작업을 합니다. 하지만 여기서 큰 문제가 생깁니다.

⚠️ 현재의 문제: "수정된 흔적"이 사라진다

지금까지의 일반적인 방식은 오류가 있는 원본을 수정한 뒤, 원본을 완전히 지워버리고 수정본만 남기는 것이었습니다.

비유:
마치 친구가 쓴 편지를 받아서, 오타를 고쳐서 다시 적어주되 "내가 어디를 고쳤는지, 왜 고쳤는지, 누가 고쳤는지"에 대한 기록을 남기지 않고 그냥 깔끔한 새 편지만 돌려주는 것과 같습니다.

나중에 "이 편지의 'Madifon'이라는 단어가 정말 'Madison'이 맞을까? 아니면 연구자가 실수로 고친 걸까?"라고 궁금해해도, 원래가 어떻게 생겼는지 알 수 없게 됩니다.

이런 방식은 역사 연구에 치명적입니다. 연구 결과가 어떻게 변했는지, 어떤 불확실성이 숨어 있는지 알 수 없기 때문입니다.

💡 이 논문의 해결책: "수정 내역장 (Provenance)" 만들기

저자들은 **"수정된 흔적 **(Provenance)을 남기는 새로운 방식을 제안합니다.

비유:
이제 편지를 고칠 때, 수정된 부분마다 작은 스티커를 붙여두는 것입니다.

  • "이곳은 컴퓨터가 잘못 읽어서 고침 (확신도 70%)"
  • "이곳은 전문가가 직접 확인하고 고침"
  • "이곳은 규칙에 따라 자동 수정됨"

이렇게 **수정된 내역 **(누가, 언제, 어떻게, 얼마나 확신하며 고쳤는지)을 모두 기록해 두는 것입니다.

이제 연구자는 두 가지 선택을 할 수 있습니다.

  1. 완벽하게 고친 버전: 모든 수정을 적용해서 읽기 편하게 보기.
  2. 신중한 버전: "확신도가 낮은 수정"이나 "전문가가 확인하지 않은 수정"은 제외하고, 불확실한 부분은 원본 그대로 남겨두고 보기.

🔍 실험 결과: "어떻게 고쳤느냐"가 결과를 바꾼다

저자들은 실제 역사 문서로 실험을 해보았습니다. 결과는 놀라웠습니다.

  1. 수정 방식에 따라 '인물'이 달라집니다:

    • 같은 문서라도, 어떻게 고쳤느냐에 따라 컴퓨터가 찾아낸 '사람 이름'이나 '장소'가 완전히 다르게 나옵니다.
    • 예를 들어, "John"을 "Jon"으로 고치는 것만으로도, 컴퓨터는 이 두 사람이 다른 사람이라고 착각할 수 있습니다.
  2. 수정 내역장이 '위험 신호'를 알려줍니다:

    • 확신도가 낮게 수정된 부분이나 전문가 확인이 안 된 부분에서, 컴퓨터가 찾아낸 이름이 자주 바뀌거나 사라지는 '불안정성'이 발견되었습니다.
    • 즉, **"이 부분은 컴퓨터가 확신하지 못해서 고친 거니까, 연구자가 한 번 더 확인해 봐야 해!"**라고 알려주는 경고등 역할을 합니다.
  3. 유연한 선택 가능:

    • 연구자는 "나는 모든 것을 다 고쳐서 넓은 범위를 보고 싶다"거나 "나는 확실한 것만 골라 조심스럽게 분석하고 싶다"는 식으로 자신의 연구 목적에 맞게 필터를 조절할 수 있게 되었습니다.

🌟 결론: 왜 이것이 중요한가요?

이 논문의 핵심 메시지는 **"디지털 인문학에서도 '어떻게 만들었는지' **(출처와 과정)입니다.

  • 과거: "수정된 텍스트"만 보고 결과를 믿었습니다. (어떻게 변했는지 모름)
  • **미래 **(이 논문의 제안): "수정된 텍스트"와 함께 **"수정 내역장 **(누가, 어떻게 고쳤는지)을 함께 분석합니다.

이는 마치 요리할 때 레시피와 재료의 출처를 함께 기록하는 것과 같습니다. 맛이 이상하다면, "어떤 재료를 썼는지, 누가 언제 넣었는지"를 확인해서 문제를 해결할 수 있기 때문입니다.

이 방식을 통해 역사 연구는 더 투명해지고, 연구 결과에 대한 신뢰도가 높아지며, 불확실성을 인정하는 과학적인 접근이 가능해집니다.


한 줄 요약:

"오래된 글을 컴퓨터로 고칠 때, **무엇을 어떻게 고쳤는지 그 흔적 **(수정 내역)을 남기면, 연구 결과의 신뢰성을 높이고 불확실한 부분을 찾아낼 수 있습니다."