ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma pilha de documentos antigos, cheios de tabelas, colunas estranhas, notas de rodapé e imagens. O texto está lá, mas está "preso" dentro da imagem. Traduzir isso não é apenas copiar e colar; é como tentar reorganizar um quebra-cabeça bagunçado enquanto você o traduz para outro idioma, mantendo a estrutura original intacta.

Este artigo descreve o ICDAR 2025, uma grande competição de inteligência artificial focada exatamente nisso: traduzir documentos complexos de imagem.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Grande Desafio: A "Cozinha" vs. O "Cardápio"

Traduzir um texto simples (como um livro) é fácil. É como ler um cardápio e pedir a comida. Mas traduzir um documento com layout complexo (como um jornal ou um artigo científico) é como entrar em uma cozinha caótica onde os ingredientes estão espalhados no chão, misturados com panelas e talheres.

O Problema: A Inteligência Artificial (IA) precisa primeiro "ver" a imagem, entender onde está cada palavra (mesmo que estejam desordenadas na imagem) e depois traduzi-la, mantendo a formatação (tabelas, negrito, colunas).
O Objetivo: Criar um sistema que faça tudo isso de uma vez só, sem precisar de ajuda externa.

2. As Duas "Pistas" da Corrida

Os participantes tiveram que escolher entre duas abordagens, como se fossem duas pistas de corrida diferentes:

Pista 1: Com "Óculos de Leitura" (Baseado em OCR)
- A Analogia: Imagine que você entrega a imagem para um robô que usa óculos especiais para ler o texto e te entrega uma lista de palavras soltas, mas bagunçadas.
- A Tarefa: O modelo da IA recebe essa lista bagunçada e precisa: 1) Colocar as palavras na ordem certa (como montar um quebra-cabeça) e 2) Traduzir.
- Vantagem: É mais fácil porque o robô já "leu" o texto para você.
- Desvantagem: Se o robô ler errado (erro de OCR), o tradutor pode ficar confuso.
Pista 2: Sem "Óculos" (Sem OCR / OCR-free)
- A Analogia: Aqui, você entrega apenas a imagem crua para a IA. Ela não tem ajuda de nenhum leitor externo. Ela precisa "olhar" para a imagem, entender que aquilo é uma tabela, que aquilo é um título, e traduzir tudo diretamente para um formato organizado (como um documento digital).
- A Tarefa: É como pedir para alguém traduzir um livro inteiro apenas olhando para as fotos das páginas, sem poder ler as letras. É muito mais difícil e exige uma "intuição" visual muito forte.

3. Pequenos vs. Gigantes (Modelos de IA)

A competição dividiu os times em dois grupos de tamanho:

Os Gigantes (> 1 Bilhão de parâmetros): São como supercomputadores com "cérebros" enormes. Eles têm muita memória e conhecimento geral.
Os Pequenos (< 1 Bilhão de parâmetros): São como smartphones potentes. Eles são mais rápidos e usam menos energia, mas precisam ser muito bem treinados para não errar.

4. Quem Ganhou e O Que Aprendemos?

A competição reuniu 69 equipes de universidades e empresas (como a Huawei e o Instituto de Automação da Academia Chinesa de Ciências).

O Veredito: Os "Gigantes" (modelos grandes) venceram em quase tudo. Eles mostraram que, para tarefas complexas como essa, ter um cérebro maior ajuda muito a entender o contexto e a estrutura do documento.
A Surpresa: Mesmo os modelos "Pequenos" conseguiram resultados impressionantes quando foram bem treinados (como um aluno que estuda muito e tira notas altas, mesmo sendo menor).
A Lição Principal:
- Traduzir documentos complexos ainda é difícil.
- Os modelos que usam "óculos" (OCR) ainda são mais precisos hoje em dia.
- Mas os modelos "sem óculos" estão evoluindo muito rápido e um dia podem superar os outros, pois são mais versáteis.

5. Por que isso importa?

Hoje, se você tentar traduzir um contrato jurídico ou um artigo médico complexo usando ferramentas comuns, o resultado costuma ser um caos: a tabela vira uma bagunça de texto, as notas de rodapé somem.

Esta competição mostrou que estamos criando a tecnologia para resolver isso. No futuro, poderemos tirar uma foto de um documento em japonês, alemão ou chinês, e a IA não apenas traduzirá o texto, mas entregará um arquivo digital perfeito, com tabelas e gráficos no lugar certo, prontos para uso.

Em resumo: Foi uma corrida para ensinar as IAs a não apenas "ler" e "traduzir", mas a "entender" a beleza e a complexidade de um documento visual, transformando imagens confusas em informações claras e úteis.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo sobre o ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts, apresentado em português:

1. Problema e Motivação

A tradução de imagens de documentos (DIMT - Document Image Machine Translation) é uma tarefa complexa que visa traduzir o texto embutido em imagens de documentos de um idioma para outro, preservando não apenas o conteúdo semântico, mas também a estrutura do layout (colunas, tabelas, notas de rodapé, etc.).

O artigo identifica três desafios principais que limitam as aplicações atuais de Grandes Modelos de Linguagem (LLMs) neste domínio:

Multimodalidade e Translingualidade: A necessidade de integrar compreensão de layout visual denso com processamento de linguagem natural (NLP) para tradução entre idiomas.
Ruído de Imagem e Texto: Defeitos na imagem ou erros de OCR (Reconhecimento Óptico de Caracteres) que degradam a entrada do modelo.
Falta de Benchmarks Unificados: A ausência de conjuntos de dados padronizados, grandes e com anotações consistentes para avaliação justa de modelos.

O objetivo do desafio DIMT 2025 é preencher essas lacunas, promovendo a pesquisa em tradução de documentos de ponta a ponta (end-to-end), especialmente para layouts complexos.

2. Metodologia e Configuração do Desafio

O desafio foi organizado pelo Instituto de Automação da Academia Chinesa de Ciências (CASIA) e ofereceu dois trilhos principais, cada um dividido em duas subcategorias baseadas no tamanho do modelo:

Trilhos de Entrada

Baseado em OCR (OCR-based): Os participantes recebem a imagem e os resultados do OCR (texto palavra por palavra e suas caixas delimitadoras). O modelo deve reordenar o texto caótico extraído e traduzi-lo, mantendo a integridade do layout.
Sem OCR (OCR-free): Os participantes recebem apenas a imagem original. O modelo deve realizar a tradução de ponta a ponta, gerando o texto traduzido diretamente em formato Markdown, lidando com o layout complexo sem assistência externa de OCR.

Subcategorias de Modelos

Pequenos Modelos (Small): Parâmetros $\le$ 1 bilhão.
Grandes Modelos (LLM): Parâmetros > 1 bilhão.

Dataset

O conjunto de dados utilizado consistiu em mais de 42.400 páginas de documentos, divididos em dois domínios:

DIMT-WebDoc-300K: 300.000 imagens de documentos web (para o trilho baseado em OCR).
DIMT-arXiv-124K: 124.000 imagens extraídas de artigos científicos (PDF/LaTeX) (para o trilho sem OCR).
O conjunto de teste final continha 1.000 páginas.

Protocolo de Avaliação

A métrica principal foi o BLEU no nível do documento (Document-level BLEU). As saídas foram segmentadas (usando Jieba para chinês) e comparadas com as referências usando o toolkit NLTK.

3. Principais Contribuições

Primeiro Benchmark Abrangente: O DIMT 2025 é apresentado como o primeiro benchmark unificado e de grande escala especificamente para tradução de imagens de documentos com layouts complexos.
Dataset Diversificado: Criação de um dataset massivo (300K + 124K imagens) cobrindo documentos web e artigos acadêmicos, com anotações detalhadas de ordem de leitura e traduções.
Comparação de Paradigmas: O desafio permitiu uma comparação direta entre abordagens que dependem de OCR prévio e abordagens puramente visuais (OCR-free), além de analisar a eficácia de modelos grandes versus pequenos.

4. Resultados e Análise

O desafio atraiu 69 equipes com 27 submissões válidas.

Desempenho Geral:
- Modelos Grandes (LLMs) superaram consistentemente os modelos pequenos em todos os trilhos.
- Abordagens Baseadas em OCR tiveram desempenho superior às abordagens OCR-free, destacando a confiabilidade atual do OCR na extração de texto. No entanto, a lacuna de desempenho entre os dois métodos está diminuindo, especialmente nos trilhos de grandes modelos.
Melhores Resultados (Top Teams):
- A equipe "Hw-tsc" (Huawei Translation Service Center) dominou o ranking, ocupando o 1º lugar em todos os quatro trilhos. Eles utilizaram o framework InternVL2.5 (versões de 8B e 1B) com treinamento de Chain-of-Thought perceptual e otimização via DPO (Direct Preference Optimization).
- No trilho OCR-based LLM, o Hw-tsc alcançou um BLEU de 70.48.
- No trilho OCR-free LLM, o Hw-tsc alcançou 60.78.
- No trilho OCR-free Small, a equipe "Intime & HY" ficou em 1º lugar com 59.96, utilizando o modelo HYOCR-1B com reforço de aprendizado (DPO).
Estratégias Chave:
- Fine-tuning Supervisionado (SFT): Foi a técnica predominante nas melhores soluções.
- Otimização de Preferência Direta (DPO): Utilizada pelas equipes de topo para reduzir alucinações e melhorar a precisão da tradução.
- Arquiteturas: Modelos multimodais gerais (como InternVL e Qwen2.5) superaram modelos especializados em layout (como LayoutLM) em tarefas complexas, embora modelos especializados ainda tenham valor em cenários específicos.

5. Significado e Conclusão

O artigo conclui que a tradução de imagens de documentos é um campo em rápida evolução, impulsionado pelos avanços em LLMs multimodais.

Paradigma Emergente: Abordagens baseadas em grandes modelos (LLMs) estabelecem um novo paradigma promissor para traduzir documentos com layouts complexos, superando as limitações de pipelines tradicionais de "OCR seguido de tradução".
Futuro da Pesquisa: Embora os modelos OCR-free ainda estejam "pegando carona" no desempenho dos modelos baseados em OCR, o progresso rápido sugere que eles se tornarão competitivos. O desafio destaca a necessidade de continuar a inovar em arquiteturas e estratégias de treinamento para lidar com a diversidade de documentos do mundo real.
Impacto: O trabalho impulsiona o avanço da Inteligência Artificial de Documentos (Document AI), com aplicações diretas em processamento automático de documentos e extração de informações multilíngues.

Em resumo, o DIMT 2025 demonstrou que, embora o OCR ainda ofereça uma vantagem de precisão, os modelos de visão-linguagem de ponta a ponta estão rapidamente fechando essa lacuna, oferecendo soluções mais robustas e integradas para a tradução de documentos complexos.