The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artigo apresenta o Corpus Patrologia Graeca, o primeiro recurso aberto de grande escala com OCR e anotações linguísticas para as edições gregas polítonas do século XIX, alcançando taxas de erro recordes e fornecendo um novo conjunto de dados anotado para estudos filológicos e treinamento de modelos de IA.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante, cheia de livros antigos escritos em grego e latim, publicados no século XIX. Esses livros são tesouros de história, filosofia e religião, mas há um grande problema: eles estão "presos" em papel. Você pode olhar para as fotos dos livros na internet, mas não consegue copiar o texto, pesquisar palavras ou usar computadores para analisá-los. É como ter um cofre cheio de ouro, mas sem a chave para abri-lo.

Este artigo apresenta a chave para esse cofre: o Corpus Patrologia Graeca.

Aqui está a explicação do projeto, usando analogias simples:

1. O Problema: A "Máquina de Ler" que não funciona

Os livros da Patrologia Graeca são complicados. Eles têm duas colunas (uma em grego, outra em latim) lado a lado, com letras gregas cheias de "acento" e símbolos estranhos (chamados de politonico). Além disso, como foram impressos há 150 anos e depois digitalizados com scanners antigos, as imagens estão borradas, tortas e com manchas.

Se você tentar usar um leitor de texto comum (como o do seu celular) nesses livros, ele vai errar feio. É como tentar ler uma receita escrita com uma caneta que está quase sem tinta, em um papel amassado, enquanto alguém tenta ler outra receita ao mesmo tempo ao lado. O computador fica confuso e transforma "α" em "o", ou perde os acentos importantes.

2. A Solução: Um "Detetive" e um "Tradutor" Especializados

Os autores criaram um sistema inteligente em duas etapas para resolver isso:

  • O Detetive (Layout): Primeiro, eles usaram uma inteligência artificial baseada em "YOLO" (que significa "Você só olha uma vez"). Imagine um detetive muito rápido que olha para a página e diz: "Aqui é o texto grego, aqui é o latim, aqui é a nota de rodapé e aqui é o título". Ele separa tudo, mesmo que as linhas estejam cruzadas ou tortas.
  • O Tradutor (OCR): Depois, eles usaram um "tradutor" de texto (uma rede neural chamada CRNN) que foi treinado especificamente para esse tipo de letra antiga e suja. Eles ensinaram esse computador a reconhecer as letras gregas mesmo quando elas estão borradas ou com acentos estranhos.

O resultado? O sistema deles erra muito pouco (apenas 1% de erro nas letras). É como se, de cada 100 letras, 99 fossem lidas perfeitamente, superando qualquer outro sistema que existia antes.

3. O Grande Tesouro: A "Enciclopédia Viva"

Depois de ler os livros, o projeto não parou por aí. Eles usaram outro computador inteligente para:

  1. Lematizar: Transformar cada palavra em sua forma original (como transformar "correndo" em "correr").
  2. Classificar: Dizer se a palavra é um verbo, um substantivo, etc.

O resultado final é um banco de dados com 6 milhões de palavras limpas, organizadas e prontas para uso. É como transformar uma pilha de papéis velhos e ilegíveis em uma enciclopédia digital perfeita, onde você pode pesquisar qualquer termo teológico, histórico ou poético.

4. Por que isso é importante? (A Analogia do "Treinamento de Atletas")

Pense nos modelos de Inteligência Artificial (como o ChatGPT ou outros "cérebros" digitais) como atletas que precisam de treino.

  • Até agora, esses atletas só treinavam com livros de grego antigo "perfeitos" e modernos. Eles não sabiam lidar com a greguês "sujo" e complexo dos séculos 10, 11 e 12.
  • Com este novo corpus, os autores estão dando aos computadores um "treino de alta performance" com dados reais e difíceis. Isso vai permitir que, no futuro, a IA entenda melhor a história, a religião e a literatura grega antiga, ajudando historiadores e pesquisadores a descobrirem coisas novas que antes eram invisíveis.

5. O Legado: Aberto para Todos

A melhor parte é que eles não guardaram esse tesouro para si.

  • Eles liberaram os dados no GitHub (para programadores e pesquisadores técnicos).
  • Criaram um site (gregoriproject.com) onde qualquer pessoa pode pesquisar e explorar os textos.
  • Forneceram as ferramentas para que outros possam fazer o mesmo com outros livros antigos.

Em resumo:
Os autores pegaram uma biblioteca de livros antigos, sujos e difíceis de ler, construíram robôs inteligentes para limpá-los e organizá-los, e entregaram o resultado de graça para o mundo. Eles transformaram "poeira de papel" em "ouro digital", permitindo que a inteligência artificial e os estudiosos explorem a sabedoria grega como nunca antes.