MoDora: Tree-Based Semi-Structured Document Analysis System

O MoDora é um sistema baseado em LLM que melhora a análise de documentos semiestruturados e a resposta a perguntas através de uma estratégia de agregação local, da construção de uma Árvore de Correlação de Componentes (CCTree) para organizar hierarquicamente os dados e de uma recuperação orientada ao tipo de pergunta, superando significativamente os métodos existentes em precisão.

Bangrui Xu, Qihang Yao, Zirui Tang, Xuanhe Zhou, Yeye He, Shihan Yu, Qianqian Xu, Bin Wang, Guoliang Li, Conghui He, Fan Wu

Publicado 2026-03-02
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você recebe uma pilha de documentos antigos e bagunçados: alguns são relatórios financeiros com tabelas complexas, outros são artigos científicos cheios de gráficos, e alguns têm notas de rodapé, cabeçalhos e colunas laterais misturadas. Tentar encontrar uma informação específica nesses documentos, como "qual foi o resultado do experimento no inverno?", é como tentar achar uma agulha em um palheiro, mas o palheiro está cheio de palhas de cores diferentes e a agulha pode estar escondida em uma tabela que não tem título.

É exatamente esse o problema que o MoDora resolve. Vamos explicar como ele funciona usando algumas analogias simples:

1. O Problema: A "Salada de Frutas" Desconstruída

Os métodos antigos de leitura de documentos (como OCR) funcionam como um robô que lê o documento linha por linha, de cima para baixo.

  • O que acontece: Ele pega o texto, a tabela e o gráfico e joga tudo numa única lista gigante, como se fosse uma salada de frutas onde você não sabe mais qual pedaço de manga pertence a qual pedaço de morango.
  • O resultado: Quando você pergunta algo, o robô não sabe que o gráfico está abaixo do título "Experimento 3", ou que a tabela pertence à seção "Resultados". Ele perde o contexto e a estrutura.

2. A Solução: O MoDora (O "Montador de Quebra-Cabeças")

O MoDora é um sistema inteligente que não apenas lê, mas organiza o documento antes de responder. Ele faz isso em três etapas mágicas:

Etapa 1: Agrupando os "Blocos de Lego" (Agregação Local)

Em vez de ler palavra por palavra, o MoDora olha para o documento e identifica "blocos" naturais.

  • Analogia: Imagine que o documento é uma caixa de Lego espalhada. O MoDora não tenta montar o castelo peça por peça aleatoriamente. Ele primeiro junta as peças que formam uma "torre" (um título com seus parágrafos), depois junta as peças que formam uma "casa" (uma tabela com seu título e legenda).
  • O que ele faz: Ele agrupa textos, tabelas e gráficos que estão juntos visualmente e semanticamente, criando "Componentes" (COs). Ele entende que um gráfico pertence a um título específico, mesmo que estejam em páginas diferentes.

Etapa 2: Construindo a "Árvore Genealógica" (CCTree)

Agora que ele tem os blocos organizados, ele precisa entender como eles se relacionam.

  • Analogia: Imagine que o documento é uma árvore genealógica. O título principal é o "avô". Os capítulos são os "pais", e os parágrafos ou tabelas dentro deles são os "filhos".
  • O que ele faz: O MoDora cria uma estrutura chamada CCTree (Árvore de Correlação de Componentes). Ele não trata o documento como uma lista plana, mas como uma árvore hierárquica. Isso significa que ele sabe que a "Tabela 1" é uma "neta" do capítulo "Experimentos".
  • O Truque do Resumo: Para não ter que ler tudo de novo, ele cria um "resumo" (metadados) para cada ramo da árvore, indo de baixo para cima. É como se cada pai soubesse um resumo do que seus filhos estão fazendo, e o avô soubesse um resumo de toda a família.

Etapa 3: A "Caça ao Tesouro" Inteligente (Busca Orientada)

Quando você faz uma pergunta, o MoDora não varre todo o documento cegamente. Ele usa uma estratégia de detetive.

  • Perguntas de Localização: Se você pergunta "O que está no canto inferior direito da página 1?", ele usa uma grade invisível (como um tabuleiro de xadrez) para ir direto ao ponto.
  • Perguntas de Significado: Se você pergunta "Qual foi o resultado do experimento?", ele usa a "Árvore Genealógica". Ele olha para os resumos dos ramos (metadados) para ver qual ramo parece relevante.
    • O Filtro Duplo: Primeiro, ele usa uma IA para "adivinhar" quais partes são importantes (poda). Depois, ele usa outra IA para verificar se a resposta está realmente lá, evitando alucinações (respostas inventadas).

Por que isso é melhor?

Vamos voltar ao exemplo do documento científico da capa do artigo:

  • Outros sistemas: Tentam ler o texto e a tabela separadamente. Eles podem achar a palavra "inverno" no texto, mas não conseguem ligar isso à linha correta na tabela que está em outra página. Ou pior, eles "alucinam" um número porque viram um número parecido em outro lugar.
  • MoDora: Ele vê que o texto "Experimento 3 foi no inverno" e a "Tabela 1" estão conectados na mesma árvore. Ele sabe que precisa olhar a linha do "Grupo Decoquinate" dentro daquela tabela específica. Ele une o texto, a tabela e o contexto visual para dar a resposta exata.

Resumo Final

O MoDora é como um bibliotecário superinteligente que, em vez de apenas ler os livros, primeiro os organiza em prateleiras lógicas, cria um mapa de onde cada história começa e termina, e depois usa esse mapa para encontrar a resposta exata que você precisa, ignorando o que é irrelevante.

O resultado? Ele é muito mais preciso do que os métodos atuais (melhorando a precisão em até 61% em alguns casos) e consegue lidar com documentos complexos, cheios de tabelas, gráficos e layouts estranhos, que costumam confundir até as IAs mais avançadas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →