Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Este artigo apresenta estratégias de treinamento para sistemas de OCR multilíngue e específicos de domínio na Índia, demonstrando que o ajuste fino de modelos existentes supera abordagens end-to-end em termos de equilíbrio entre precisão e latência, resultando nos modelos Chitrapathak-2 e Parichay, que alcançam desempenho state-of-the-art em benchmarks de línguas indicas e documentos governamentais.

Ali Faraz, Raja Kolla, Ashish Kulkarni, Shubham Agarwal

Publicado 2026-02-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa digitalizar milhões de documentos do governo indiano: desde cartões de identidade e licenças de motorista até recibos de impostos e registros de veículos. O desafio? A Índia é um país gigantesco com 22 idiomas oficiais e centenas de dialetos, além de documentos com layouts muito diferentes, manuscritos difíceis de ler e fotos de baixa qualidade.

Fazer um "robô" (OCR) que leia tudo isso perfeitamente, rápido e barato, é como tentar ensinar um único funcionário a falar fluentemente 10 idiomas diferentes, ao mesmo tempo que ele precisa ler manuscritos rabiscados em papéis amassados, tudo isso em menos de um segundo.

Os autores deste paper, da empresa Krutrim AI, decidiram testar duas estratégias diferentes para resolver esse problema e criaram dois sistemas: o Chitrapathak (para leitura geral) e o Parichay (para extração de dados específicos).

Aqui está a explicação simplificada do que eles descobriram:

1. O Dilema: "Aprender Tudo do Zero" vs. "Treinar um Especialista"

Os pesquisadores testaram duas abordagens principais:

  • Estratégia 1 (Chitrapathak-1): O "Generalista".
    Imagine pegar um professor universitário muito inteligente que sabe falar muitos idiomas, mas nunca viu um documento de escritório. Você tenta ensiná-lo a ler documentos do zero, mostrando milhares de páginas.

    • O problema: Ele é inteligente, mas lento. Para ler uma página cheia de texto pequeno, ele precisa "cortar" a imagem em pedaços, ler cada um e juntar tudo. É como tentar montar um quebra-cabeça gigante peça por peça, conversando com cada peça antes de encaixá-la. O resultado é preciso, mas muito lento e caro para uso em massa.
  • Estratégia 2 (Chitrapathak-2): O "Especialista Treinado".
    Em vez de começar do zero, eles pegaram um robô que já sabia ler documentos (mas só em inglês) e o treinaram especificamente para os idiomas indianos.

    • A analogia: É como pegar um motorista profissional de caminhão (que já sabe dirigir em estradas complexas) e dar a ele um mapa das estradas da Índia. Ele não precisa reaprender a dirigir; ele só precisa aprender as regras locais.
    • O resultado: Essa estratégia foi a vencedora. O sistema ficou 3 a 6 vezes mais rápido que o primeiro, mantendo uma precisão incrível (até melhor que os gigantes como o GPT-4o em alguns idiomas).

2. Os Dois Heróis do Sistema

A empresa criou dois produtos para situações diferentes:

A. Chitrapathak (O Leitor Universal)

  • O que faz: Lê qualquer documento escrito em 10 idiomas indianos + inglês.
  • A lição: Eles descobriram que, para ler muitos idiomas diferentes, é melhor começar com um modelo que já entende a estrutura de "texto em imagem" e apenas "ajustar" os idiomas, em vez de tentar ensinar tudo do zero.
  • Destaque: No idioma Telugu, eles criaram o melhor sistema do mundo (State-of-the-Art), superando até mesmo modelos fechados e caros.

B. Parichay (O Extrator de Dados)

  • O que faz: Não serve apenas para ler texto; ele serve para entender e organizar. Imagine que você tem uma pilha de Cartões de Identidade (Aadhaar) e precisa extrair apenas: Nome, Data de Nascimento e Endereço.
  • Como funciona: Em vez de apenas transcrever o texto, o Parichay é treinado para olhar o documento e responder: "O nome está aqui, o endereço está ali".
  • O Truque: Eles adicionaram um "ajuste de rotação". Muitas vezes, as pessoas tiram fotos dos documentos tortas. O Parichay tem um "olho" extra que endireita a foto antes de ler, garantindo que nada seja perdido.
  • Resultado: Ele atingiu 89,8% de precisão na extração exata dos dados, sendo mais rápido e preciso que soluções privadas caras.

3. O Que Isso Significa para o Mundo Real?

A grande descoberta deste trabalho é que, para a indústria funcionar bem na Índia (e em lugares complexos como o Brasil), não existe uma "bala de prata" única.

  • Se você precisa ler tudo (livros, jornais, documentos variados), use um modelo especializado e treinado para isso (como o Chitrapathak-2). É mais rápido e eficiente.
  • Se você precisa extrair dados específicos de formulários conhecidos (como licenças de carro), use um modelo treinado especificamente para aquela tarefa (como o Parichay). É como ter um funcionário que só faz contabilidade, em vez de um generalista que tenta fazer tudo.

Resumo em uma Frase

Para digitalizar a Índia, não adianta tentar ensinar um único robô a ser um poliglota perfeito do zero; é muito mais eficiente pegar robôs que já sabem ler documentos e treiná-los rapidamente para os idiomas e tarefas específicas, garantindo velocidade, baixo custo e alta precisão.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →