Structure-Aware Text Recognition for Ancient Greek Critical Editions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um historiador tentando ler um livro antigo escrito em Grego, mas não é um livro comum. É um "livro de notas de rodapé" gigante.

Pense nestes livros antigos como pizzas de informação. No meio, você tem o texto principal (a massa e o molho), mas em volta, nas bordas, há centenas de anotações, números de referência, citações de outros livros e notas dos editores explicando por que uma palavra foi escrita de um jeito ou de outro. Além disso, o texto é cheio de símbolos estranhos (acentos e respirações) que mudam o significado das palavras.

O problema? Tentar digitalizar (transformar em texto de computador) essas páginas é um pesadelo. Os programas de reconhecimento de texto (OCR) comuns, que funcionam bem para ler um jornal moderno, ficam completamente confusos com esse "caos organizado". Eles leem o texto, mas perdem as notas de rodapé, misturam os números de página ou simplesmente alucinam e inventam palavras.

O que os pesquisadores fizeram?

A equipe do Inria (na França) decidiu criar uma nova maneira de ensinar computadores a ler esses livros antigos. Eles chamam isso de "Reconhecimento de Texto Consciente da Estrutura".

Aqui está como eles fizeram, usando analogias simples:

1. Criando uma "Fábrica de Livros Falsos" (Dados Sintéticos)

Como não existem muitos livros antigos digitalizados de alta qualidade para treinar computadores, eles criaram um simulador.

A Analogia: Imagine que você quer ensinar um cachorro a reconhecer gatos, mas só tem fotos de gatos reais. É difícil. Então, você cria um "zoológico virtual" com 185.000 fotos de gatos geradas por computador, mudando a cor do pelo, o fundo, a luz e o ângulo.
Na prática: Eles pegaram textos gregos antigos (que já existiam em formato digital) e usaram um programa para "imprimi-los" virtualmente em milhares de estilos diferentes de livros antigos. Isso gerou 185.000 páginas de imagens sintéticas. O computador aprendeu a ler o texto e, ao mesmo tempo, a entender onde estão as notas de rodapé e os títulos, porque o computador "sabia" exatamente como cada página foi montada.

2. O "Exame Real" (Dados Reais)

Depois de treinar com os livros falsos, eles precisavam testar com a realidade.

A Analogia: É como treinar um piloto de corrida em um simulador e depois colocá-lo em uma pista de chuva real.
Na prática: Eles pegaram 450 páginas reais de livros escaneados (de edições críticas reais, de 1844 a 2017) e pediram para os computadores lerem.

3. Os "Alunos" (Os Modelos de IA)

Eles testaram três tipos de "cérebros" de IA (chamados Modelos de Visão-Linguagem):

Os "Velhos Sabichões" (OCR Tradicional): Programas como o Tesseract. Eles são rápidos e baratos, mas muitas vezes perdem as notas de rodapé.
Os "Alunos Novatos" (Modelos de IA Gerais): Modelos gigantes que sabem de tudo, mas não foram treinados especificamente para isso.
O "Estudante de Ouro" (Qwen3-VL-8B): Um modelo de IA grande e poderoso que eles ensinaram usando os dados sintéticos e depois ajustaram com os dados reais.

O que eles descobriram?

Sem treino, ninguém acerta: Se você pegar um desses modelos de IA modernos e pedir para ler o livro antigo sem nenhum treino ("zero-shot"), eles fazem um papel pior do que os programas antigos e baratos. Eles ficam confusos com a estrutura.
O segredo é o treino misto: O modelo Qwen3-VL-8B se tornou o campeão. Primeiro, ele estudou as "falsas" 185.000 páginas (aprendendo a estrutura). Depois, ele fez um "curso intensivo" nas poucas páginas reais.
O Resultado: Esse modelo conseguiu ler o texto com uma precisão incrível (menos de 1% de erro), quase como se fosse um humano especialista, e conseguiu separar corretamente o texto principal das notas de rodapé e dos títulos.

Por que isso é importante?

Até agora, digitalizar esses livros exigia que um humano lesse o texto, corrigisse os erros do computador e, manualmente, marcasse onde estava cada nota de rodapé. Isso levava anos.

Com essa nova tecnologia:

Aceleração: O computador faz 99% do trabalho sozinho.
Precisão: Ele entende que aquele número no canto da página não é parte da história, mas uma referência para outro livro.
Acesso: Isso permite que estudiosos de todo o mundo acessem e pesquisem esses textos antigos muito mais rápido.

O Ponto de Atenção (A "Pegadinha")

Os pesquisadores também alertaram: esses modelos de IA gigantes são como elefantes em uma loja de porcelana. Eles são incrivelmente inteligentes, mas às vezes, quando estão confusos, eles "alucinam" (inventam textos que não existem na imagem) ou quebram a página inteira.

Eles concluem que, embora a IA moderna seja poderosa, talvez não seja sempre a melhor solução para tudo. Às vezes, um sistema mais simples e barato (como os programas de OCR antigos) combinado com uma IA para corrigir as notas de rodapé pode ser mais eficiente e menos "gastador" de energia.

Resumo da Ópera: Eles criaram um "treinador virtual" para ensinar computadores a lerem os livros mais complexos e bagunçados da história grega antiga, e conseguiram fazer com que uma máquina leia esses textos quase tão bem quanto um professor universitário, abrindo as portas para um futuro onde a história antiga é acessível a todos.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O reconhecimento óptico de caracteres (OCR) para edições críticas impressas do Grego Antigo permanece um desafio significativo e subexplorado. Diferente de documentos modernos, essas edições acadêmicas apresentam:

Layouts Complexos e Heterogêneos: O texto principal é intercalado com hierarquias de seções, numeração de marcos (milestones), referências marginais e um aparato crítico (notas sobre variações textuais).
Escrita Policônica: O uso de acentos, respirações (aspiração) e o subscrito de iota no grego antigo exige precisão morfológica.
Limitações dos Modelos Atuais: Embora os Modelos de Linguagem Visual (VLMs) tenham avançado na compreensão de documentos, eles ainda lutam para interpretar a semântica de layout densa e estruturada dessas obras históricas. Sistemas tradicionais de OCR (baseados em CRNN) são modulares e frágeis em layouts complexos, enquanto os VLMs tendem a falhar na recuperação da estrutura ou a gerar "alucinações" (texto inventado) em zero-shot.
Falta de Dados: Existe uma escassez de corpora abertos e de grande escala com ground truth (dados de verdade) estruturado para treinar modelos nessas condições específicas.

2. Metodologia

Os autores propõem uma abordagem de Reconhecimento de Texto Consciente da Estrutura (Structure-Aware Text Recognition), combinando a geração de dados sintéticos com a avaliação em dados reais.

A. Construção de Recursos (Datasets)

O trabalho introduz dois recursos principais:

Corpo Sintético de Grande Escala:
- Gerado a partir de fontes TEI/XML (Text Encoding Initiative) de edições críticas abertas.
- Contém 185.000 imagens de páginas com variações tipográficas e de layout controladas (fontes, cores, colunas, tamanhos de página).
- Utiliza um esquema de marcação leve (pseudo-Markdown/XML) para codificar elementos estruturais: cabeçalhos (#), referências (<ref>...</ref>), notas marginais (<note>...</note>) e marcadores de parágrafo (<tab/>).
- O pipeline usa LaTeX para renderização e XSLT para garantir a consistência entre a imagem visual e a anotação estrutural.
Benchmark de Dados Reais:
- Um conjunto curado de 450 imagens de edições impressas reais (escaneadas), abrangendo mais de um século de práticas editoriais (1844–2017) e 30 pares autor-obra (do século V a.C. ao XIV d.C.).
- As imagens foram anotadas manualmente seguindo o mesmo esquema do corpus sintético, garantindo alta fidelidade para avaliação.

B. Configuração Experimental

Modelos Avaliados: Três VLMs de última geração (Qwen3-VL 2B e 8B, DeepSeek-OCR-2, LightOnOCR-2) e bases de comparação tradicionais (Tesseract e Kraken).
Regimes de Treinamento:
1. Zero-shot: Sem treinamento prévio.
2. Fine-tuning Sintético: Treinado apenas no corpus sintético.
3. Fine-tuning Real: Treinado apenas no corpus real (pequeno).
4. Sintético $\to$ Real: Treinamento sequencial (pré-treinamento no sintético, ajuste fino no real).
Métricas:
- Precisão de texto puro: Taxa de Erro de Caracteres (CER) e Taxa de Erro de Palavras (WER).
- Reconhecimento de Estrutura: F1-score para cabeçalhos, referências e notas marginais.
- Análise de erros: Substituições, inserções (alucinações) e deleções, com foco em confusões de diacríticos gregos.

3. Contribuições Principais

Novos Recursos Abertos: Disponibilização de um corpus sintético massivo (185k imagens) e um benchmark real anotado para o Grego Antigo, com código e dados liberados no GitHub.
Pipeline de Geração Sintética: Um método reprodutível para converter textos TEI/XML em imagens de documentos variados, aplicável a outras línguas e estilos editoriais.
Análise de VLMs em Domínio Histórico: A primeira avaliação abrangente de VLMs modernos para a tarefa específica de OCR estruturado em edições críticas antigas.
Descoberta de Limitações e Potenciais: Evidência de que, embora os VLMs sofram em zero-shot, o treinamento híbrido (sintético + real) permite atingir desempenho de ponta, superando o software tradicional em precisão estrutural.

4. Resultados Chave

Desempenho em Zero-shot: A maioria dos modelos VLMs performou pior que softwares prontos (como Tesseract) em cenários sem treinamento, indicando que a estrutura complexa não é aprendida apenas por pre-treinamento geral.
Impacto do Fine-tuning: O ajuste fino melhorou drasticamente a precisão.
- O modelo Qwen3-VL-8B, após o regime de treinamento Sintético $\to$ Real, alcançou uma Taxa de Erro de Caracteres (CER) mediana de 1,0% em scans reais, um desempenho próximo ao ideal.
- O treinamento apenas sintético já transferiu bem para dados reais (ex: Qwen3-VL-8B caiu de 5,2% para 1,7% de CER apenas com dados sintéticos).
Reconhecimento de Estrutura:
- O Qwen3-VL-8B (Sintético $\to$ Real) alcançou o melhor desempenho na recuperação de referências (F1 de 79,5%) e notas marginais (F1 de 63,5%).
- A detecção de notas marginais foi altamente sensível à presença de dados reais no treinamento, pois o corpus sintético tinha poucas notas (6,1% vs 32,3% no real).
Estabilidade e Alucinações:
- Houve uma grande discrepância entre a mediana e a média de erro em alguns modelos (ex: DeepSeek), indicando falhas catastróficas em páginas específicas (alucinações longas e fluentes).
- O Qwen3-VL-8B mostrou-se o mais estável, com erros concentrados em nível de caractere (ortografia/diacríticos) em vez de erros estruturais graves.
Comparação com CRNNs: Sistemas tradicionais (Kraken/Tesseract) ainda são competitivos em precisão de texto puro e mais eficientes computacionalmente, mas falham na recuperação da estrutura hierárquica e sofrem menos com alucinações generativas.

5. Significado e Conclusão

O artigo demonstra que o OCR para edições críticas antigas não é apenas um problema de transcrição de glifos, mas de interpretação de sistemas simbólicos e hierárquicos.

Viabilidade dos VLMs: Modelos de linguagem visual grandes, quando combinados com supervisão sintética controlada e adaptação ao domínio real, podem superar os métodos tradicionais na recuperação simultânea de texto e estrutura complexa.
Custo-Benefício: Existe um debate sobre a justificativa do uso de VLMs pesados (custo computacional e carbono) versus arquiteturas CRNN especializadas. Os VLMs oferecem flexibilidade e transferência de domínio, mas os sistemas tradicionais permanecem robustos e eficientes para tarefas puramente de transcrição.
Futuro: A pesquisa sugere que abordagens híbridas, que combinam a sensibilidade estrutural dos VLMs com a eficiência dos pipelines de OCR tradicionais, são o caminho mais promissor para a digitalização de patrimônio histórico complexo.

Em resumo, o trabalho estabelece um novo padrão para a avaliação de OCR em documentos históricos complexos e fornece as ferramentas necessárias para treinar modelos capazes de "ler" não apenas o texto, mas a organização acadêmica das edições críticas.