N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um tradutor superinteligente (um modelo de IA) que foi treinado por anos lendo apenas livros de fantasia medieval. Ele ficou tão bom nessa tarefa que consegue decifrar qualquer texto antigo, mesmo com caligrafia difícil.

Agora, imagine que você pede a esse mesmo tradutor para ler um manual de instruções de um forno elétrico moderno.

O que acontece? O tradutor começa a alucinar. Em vez de ler "temperatura", ele pode ler "dragão". Em vez de "botão", ele lê "espada". Por quê? Porque a IA aprendeu que, no mundo dela, palavras como "espada" e "magia" são muito comuns, e "botão" e "forno" são estranhas. Ela está viciada no estilo de linguagem em que foi treinada.

Esse é exatamente o problema que os autores deste artigo tentaram resolver.

O Problema: O Vício da IA

No mundo da Reconhecimento de Texto Manuscrito (HTR), as IAs modernas (baseadas em "Transformers") são incríveis. Elas aprendem a linguagem enquanto leem as imagens. Mas, se você treinar a IA com cartas de amor do século XIX e depois tentar usá-la para ler recibos de supermercado de hoje, ela vai falhar miseravelmente. A "distribuição da linguagem" mudou, e a IA não sabe se adaptar.

Geralmente, para consertar isso, você teria que re-treinar a IA com milhares de novos exemplos (imagens + texto), o que é caro, demorado e difícil de conseguir.

A Solução: O "Injetor de N-gramas" (NGI)

Os autores propuseram uma solução inteligente chamada Injeção de N-gramas (NGI). Vamos usar uma analogia para entender como funciona:

Imagine que a IA é um chef de cozinha que está cozinhando um prato (lendo uma palavra).

Sem a solução: O chef só confia no próprio paladar (o que ele aprendeu na escola de culinária). Se o cliente pedir um prato diferente do que ele conhece, o chef erra o tempero.
Com a solução (NGI): Nós damos ao chef uma lista de compras atualizada (o modelo de n-gramas) que diz: "Hoje, as pessoas estão usando muito 'pimenta' e pouco 'canela'".

Essa lista de compras é o n-gram. É basicamente uma estatística simples que diz: "Dado que a palavra anterior foi 'forno', a próxima palavra tem 90% de chance de ser 'temperatura' e 1% de chance de ser 'dragão'".

Como funciona a mágica?

A grande inovação deste trabalho é quando e como essa lista é entregue ao chef:

Injeção Precoce (Early Injection): Em vez de o chef cozinhar o prato todo e, no final, alguém dizer "ops, estava errado, tente de novo" (o que é lento e ineficiente), nós entregamos a lista de compras antes de ele começar a cortar os legumes.
A IA Aprende a Ouvir: A IA é treinada para olhar para a imagem (o texto manuscrito) E para a lista de compras (a estatística da linguagem) ao mesmo tempo. Ela aprende a equilibrar os dois: "Se a imagem está muito borrada, confio mais na lista de compras. Se a imagem está clara, confio mais no que vejo."
Troca Dinâmica: A melhor parte? Se amanhã o cliente trouxer um manual de um micro-ondas, você só precisa trocar a lista de compras na mesa do chef. Você não precisa demitir o chef, nem mandar ele fazer um curso novo. Você só troca o papel com as estatísticas.

Por que isso é importante?

Sem Retreinamento: Você pode adaptar a IA para um novo tipo de documento (como formulários de reclamação ou nomes de pessoas) apenas trocando o modelo de linguagem, sem precisar de novas imagens para treinar.
Barato e Rápido: Calcular essas estatísticas (n-gramas) é muito mais barato e rápido do que treinar uma IA do zero.
Resultados: Nos testes, essa técnica reduziu drasticamente os erros quando a IA foi testada em textos diferentes dos que ela viu durante o treinamento.

Resumo da Ópera

Os autores criaram um "plug-in" (o NGI) que permite que uma IA de leitura de texto manuscrito seja flexível. Em vez de ser um robô teimoso que só entende um tipo de linguagem, ela se torna um poliglota adaptável que pode mudar seu "dialeto" instantaneamente, apenas trocando um pequeno arquivo de estatísticas, sem precisar de uma nova aula de escola.

É como dar um GPS em tempo real para o tradutor: se ele está prestes a virar para a rua errada (o erro de linguagem), o GPS (o n-gram) o corrige na hora, garantindo que ele chegue ao destino certo, seja qual for o tipo de texto que ele esteja lendo.

Each language version is independently generated for its own context, not a direct translation.

Título: Injeção de n-gramas em Transformers para Adaptação Dinâmica de Modelos de Linguagem em Reconhecimento de Texto Manuscrito (HTR)

1. O Problema: Viés de Linguagem e Deslocamento de Distribuição

O Reconhecimento de Texto Manuscrito (HTR) baseado em redes neurais, especificamente arquiteturas encoder-decoder com Transformers, alcançou resultados impressionantes. No entanto, esses modelos sofrem de uma falha crítica: eles aprendem implicitamente o modelo de linguagem dos dados de treinamento (corpo de origem).

Deslocamento de Distribuição (Domain Shift): Quando o modelo é testado em um corpus alvo com uma distribuição de linguagem diferente da de treinamento (mesmo que as imagens sejam visualmente similares), a precisão cai drasticamente.
Limitação Atual: A maioria dos sistemas assume que os dados de treino e teste seguem a mesma distribuição (i.i.d.), o que é irrealista em cenários do mundo real (ex.: formulários administrativos onde os campos de "nome" e "sobrenome" têm distribuições linguísticas distintas).
Consequência: Um aumento significativo na Perplexidade (PPL) entre o corpus de origem e o alvo resulta em um aumento desproporcional na Taxa de Erro de Caracteres (CER), tornando o sistema inutilizável sem retreinamento massivo.

2. Metodologia Proposta: Injeção de n-gramas (NGI)

Os autores propõem o NGI (n-gram Injection), um método leve e dinâmico para adaptar o modelo de linguagem do decoder do Transformer durante a inferência, sem necessidade de retreinamento no corpus alvo.

Mecanismo de Injeção Precoce:
- Ao invés de usar post-processing (como re-avaliação com beam search após a geração), o NGI injeta as probabilidades de um modelo de linguagem externo baseado em n-gramas diretamente na entrada do decoder do Transformer.
- O vetor de distribuição do n-gram ( $s_{NGI}$ ) é calculado com base no contexto dos caracteres já previstos.
- Este vetor é processado por uma camada feed-forward ( $f$ ), adicionado de ruído controlado (para evitar overfitting e aumentar a robustez) e somado aos embeddings dos caracteres e ao positional encoding.
- Equação de Entrada: $X = f(\phi(S_{NGI})) + \xi(c) + P$ , onde $\phi$ adiciona ruído e normaliza a distribuição.
Adaptação Dinâmica:
- A grande vantagem é a capacidade de trocar o modelo de n-gramas no momento da inferência. Se o corpus alvo muda, basta carregar um novo arquivo de n-gramas estimado nesse novo corpus, sem alterar os pesos da rede neural.
- Isso permite o uso de dados textuais não pareados (apenas texto, sem imagens) para criar o modelo de linguagem alvo.
Arquitetura Base (WAN):
- Para demonstrar o método, os autores introduzem o WAN (Word Attention Network), um modelo encoder-decoder leve (2,1M parâmetros).
- Encoder: Rede totalmente convolucional (FCN) para extração eficiente de características visuais.
- Decoder: Transformer pequeno (2 camadas) que integra a injeção de n-gramas.

3. Contribuições Principais

Método de Injeção Dinâmica: Primeira estratégia de adaptação de linguagem para HTR que injeta n-gramas diretamente no decoder do Transformer, permitindo a troca de modelos de linguagem em tempo de inferência sem retreinamento.
Redução de Viés sem Retreinamento: Demonstra que é possível mitigar o viés linguístico utilizando apenas dados textuais não pareados do domínio alvo, eliminando a necessidade de pares imagem-texto no alvo.
Arquitetura Leve (WAN): Proposta de um modelo eficiente e escalável para reconhecimento de palavras manuscritas, adequado para cenários com dados limitados.
Benchmarks Realistas: Criação de divisões personalizadas (splits) em conjuntos de dados públicos (IAM e RIMES) e um conjunto industrial privado (N2S) que forçam um deslocamento de linguagem significativo para testar a robustez.

4. Resultados Experimentais

Os experimentos foram realizados em três conjuntos de dados: IAM (Inglês), RIMES (Francês) e N2S (Nomes e Sobrenomes em formulários).

Desempenho sem NGI: Modelos de última geração (TrOCR, DAN, SaLT) e o WAN base sofreram quedas severas de desempenho. Em divisões k-means (deslocamento alto), a CER (Taxa de Erro de Caracteres) no alvo chegou a dobrar ou triplicar em relação ao origem (ex.: de 4.3% para 29.9% no RIMES).
Impacto do NGI:
- A injeção de n-gramas reduziu significativamente a lacuna de desempenho entre origem e alvo.
- No conjunto IAM (k-means), a CER no alvo caiu de 23.4% (sem NGI) para 10.1% (com NGI).
- No conjunto RIMES (k-means), a CER caiu de 29.9% para 19.2%.
- No conjunto N2S, a CER no alvo reduziu de 6.3% para 4.5%.
Comparação com Pós-processamento:
- O NGI superou ou foi comparável a métodos de post-processing (re-avaliação com lattice), mas com custo computacional muito menor, pois evita a exploração de grandes grafos de busca durante a inferência.
- A combinação de NGI + post-processing obteve os melhores resultados absolutos, mas o NGI sozinho já oferece ganhos substanciais com baixa complexidade.
Estudos de Ablação:
- A adição de ruído durante o treino foi crucial para evitar overfitting no n-gram de origem.
- O uso de Teacher Forcing Error (TFE) melhorou a generalização.
- N-gramas de ordem 5 foram superiores a ordens 2 ou 3, indicando que contextos mais longos são necessários para capturar a distribuição alvo.

5. Significado e Conclusão

Este trabalho aborda um dos maiores gargalos na aplicação prática de HTR: a falta de robustez frente a mudanças de domínio linguístico.

Viabilidade Industrial: O método permite que sistemas de reconhecimento sejam implantados em novos cenários (ex.: novos tipos de formulários) apenas fornecendo um arquivo de texto de exemplo do novo domínio, sem a necessidade custosa de coletar e anotar milhares de imagens manuscritas.
Eficiência: Ao mover a adaptação de linguagem para a fase de inferência e usar n-gramas (leves) em vez de modelos neurais pesados, o sistema mantém baixa latência.
Futuro: Os autores sugerem que essa arquitetura pode ser estendida para modelos de linguagem neurais externos e para transferência entre idiomas, desde que o custo computacional seja gerenciável.

Em resumo, o NGI representa um avanço significativo na direção de sistemas de HTR adaptáveis, robustos e economicamente viáveis para o mundo real.

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

O Problema: O Vício da IA

A Solução: O "Injetor de N-gramas" (NGI)

Como funciona a mágica?

Por que isso é importante?

Resumo da Ópera

Título: Injeção de n-gramas em Transformers para Adaptação Dinâmica de Modelos de Linguagem em Reconhecimento de Texto Manuscrito (HTR)

1. O Problema: Viés de Linguagem e Deslocamento de Distribuição

2. Metodologia Proposta: Injeção de n-gramas (NGI)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization