N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Este artigo propõe uma injeção externa de n-gramas (NGI) em decodificadores de Transformers para permitir a adaptação dinâmica de modelos de linguagem durante a inferência em reconhecimento de texto manuscrito, mitigando a queda de desempenho causada por mudanças na distribuição linguística sem a necessidade de treinamento adicional.

Florent Meyer, Laurent Guichard, Denis Coquenet, Guillaume Gravier, Yann Soullard, Bertrand Coüasnon

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um tradutor superinteligente (um modelo de IA) que foi treinado por anos lendo apenas livros de fantasia medieval. Ele ficou tão bom nessa tarefa que consegue decifrar qualquer texto antigo, mesmo com caligrafia difícil.

Agora, imagine que você pede a esse mesmo tradutor para ler um manual de instruções de um forno elétrico moderno.

O que acontece? O tradutor começa a alucinar. Em vez de ler "temperatura", ele pode ler "dragão". Em vez de "botão", ele lê "espada". Por quê? Porque a IA aprendeu que, no mundo dela, palavras como "espada" e "magia" são muito comuns, e "botão" e "forno" são estranhas. Ela está viciada no estilo de linguagem em que foi treinada.

Esse é exatamente o problema que os autores deste artigo tentaram resolver.

O Problema: O Vício da IA

No mundo da Reconhecimento de Texto Manuscrito (HTR), as IAs modernas (baseadas em "Transformers") são incríveis. Elas aprendem a linguagem enquanto leem as imagens. Mas, se você treinar a IA com cartas de amor do século XIX e depois tentar usá-la para ler recibos de supermercado de hoje, ela vai falhar miseravelmente. A "distribuição da linguagem" mudou, e a IA não sabe se adaptar.

Geralmente, para consertar isso, você teria que re-treinar a IA com milhares de novos exemplos (imagens + texto), o que é caro, demorado e difícil de conseguir.

A Solução: O "Injetor de N-gramas" (NGI)

Os autores propuseram uma solução inteligente chamada Injeção de N-gramas (NGI). Vamos usar uma analogia para entender como funciona:

Imagine que a IA é um chef de cozinha que está cozinhando um prato (lendo uma palavra).

  • Sem a solução: O chef só confia no próprio paladar (o que ele aprendeu na escola de culinária). Se o cliente pedir um prato diferente do que ele conhece, o chef erra o tempero.
  • Com a solução (NGI): Nós damos ao chef uma lista de compras atualizada (o modelo de n-gramas) que diz: "Hoje, as pessoas estão usando muito 'pimenta' e pouco 'canela'".

Essa lista de compras é o n-gram. É basicamente uma estatística simples que diz: "Dado que a palavra anterior foi 'forno', a próxima palavra tem 90% de chance de ser 'temperatura' e 1% de chance de ser 'dragão'".

Como funciona a mágica?

A grande inovação deste trabalho é quando e como essa lista é entregue ao chef:

  1. Injeção Precoce (Early Injection): Em vez de o chef cozinhar o prato todo e, no final, alguém dizer "ops, estava errado, tente de novo" (o que é lento e ineficiente), nós entregamos a lista de compras antes de ele começar a cortar os legumes.
  2. A IA Aprende a Ouvir: A IA é treinada para olhar para a imagem (o texto manuscrito) E para a lista de compras (a estatística da linguagem) ao mesmo tempo. Ela aprende a equilibrar os dois: "Se a imagem está muito borrada, confio mais na lista de compras. Se a imagem está clara, confio mais no que vejo."
  3. Troca Dinâmica: A melhor parte? Se amanhã o cliente trouxer um manual de um micro-ondas, você só precisa trocar a lista de compras na mesa do chef. Você não precisa demitir o chef, nem mandar ele fazer um curso novo. Você só troca o papel com as estatísticas.

Por que isso é importante?

  • Sem Retreinamento: Você pode adaptar a IA para um novo tipo de documento (como formulários de reclamação ou nomes de pessoas) apenas trocando o modelo de linguagem, sem precisar de novas imagens para treinar.
  • Barato e Rápido: Calcular essas estatísticas (n-gramas) é muito mais barato e rápido do que treinar uma IA do zero.
  • Resultados: Nos testes, essa técnica reduziu drasticamente os erros quando a IA foi testada em textos diferentes dos que ela viu durante o treinamento.

Resumo da Ópera

Os autores criaram um "plug-in" (o NGI) que permite que uma IA de leitura de texto manuscrito seja flexível. Em vez de ser um robô teimoso que só entende um tipo de linguagem, ela se torna um poliglota adaptável que pode mudar seu "dialeto" instantaneamente, apenas trocando um pequeno arquivo de estatísticas, sem precisar de uma nova aula de escola.

É como dar um GPS em tempo real para o tradutor: se ele está prestes a virar para a rua errada (o erro de linguagem), o GPS (o n-gram) o corrige na hora, garantindo que ele chegue ao destino certo, seja qual for o tipo de texto que ele esteja lendo.