CMRAG: Co-modality-based visual document retrieval and question answering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante cheia de documentos complexos: contratos com tabelas, manuais técnicos com diagramas, relatórios financeiros com gráficos e artigos científicos com fórmulas. Agora, imagine que você precisa encontrar uma informação específica dentro desse caos e fazer uma pergunta sobre isso.

O problema é que os "bibliotecários" (os sistemas de Inteligência Artificial atuais) têm um grande defeito: eles são especialistas em apenas um tipo de leitura.

O Bibliotecário "Texto" (Método Antigo 1): Ele raspa todo o texto do papel e ignora as imagens. Se a resposta estiver dentro de um gráfico colorido ou de uma foto de um circuito, ele fica cego. Ele vê as palavras, mas perde o contexto visual.
O Bibliotecário "Imagem" (Método Antigo 2): Ele olha para a página inteira como se fosse uma foto. Ele vê o layout, as cores e as formas, mas tem dificuldade em ler letras pequenas ou entender tabelas complexas com precisão, como se tentasse ler um livro de capa fechada.

A Solução: O CMRAG (O Bibliotecário Híbrido)

Os autores deste artigo criaram o CMRAG. Pense nele como um super-bibliotecário com dois pares de olhos e dois cérebros trabalhando em perfeita sincronia.

Aqui está como funciona, usando analogias simples:

1. O Tradutor Universal (UEM - Modelo de Codificação Unificado)

Imagine que o texto e a imagem falam línguas diferentes. O texto fala "Português" e a imagem fala "Visual". Antigamente, você precisava de dois tradutores separados, e eles não conversavam bem entre si.

O CMRAG cria um espaço de tradução unificado. Ele pega a sua pergunta, o texto extraído do documento e a imagem da página, e os transforma todos em "moedas" do mesmo tipo (chamadas embeddings). É como se ele transformasse tudo em "Dólares". Agora, ele pode comparar diretamente o valor da sua pergunta com o valor do texto e o valor da imagem, sem confusão.

2. O Filtro Inteligente (UCMR - Recuperação Informada por Co-modalidade)

Aqui está a mágica da estatística. Às vezes, o "olho" que vê a imagem dá uma nota de 80 para uma resposta, e o "olho" que lê o texto dá uma nota de 0.5. Como você soma 80 + 0.5? Não faz sentido! É como tentar somar 80 quilos com 0,5 metros.

O CMRAG usa um truque matemático (normalização) para colocar essas notas na mesma régua. Ele ajusta as pontuações para que o "olho da imagem" e o "olho do texto" falem a mesma língua de confiança. Assim, ele pode dizer: "Ok, a imagem parece muito relevante (nota alta), mas o texto confirma um detalhe crucial (nota ajustada)". Ele une as duas forças para encontrar a página exata.

3. O Grande Final (Geração)

Depois de encontrar a página perfeita usando os dois "olhos", ele entrega tudo para um Gênio (um Modelo de Linguagem Grande) para escrever a resposta final. Como o Gênio recebeu tanto o texto claro quanto a imagem completa, ele não precisa "adivinhar" nada. Ele vê a tabela e lê o número ao mesmo tempo, garantindo que a resposta seja precisa.

Por que isso é importante?

Precisão: Em documentos onde a resposta está escondida em um gráfico ou tabela, os métodos antigos falham. O CMRAG acerta porque "vê" e "lê" ao mesmo tempo.
Velocidade: Eles conseguem fazer isso sem ficar lentos. É como ter um assistente que faz duas tarefas ao mesmo tempo sem se cansar.
Versatilidade: Funciona para relatórios financeiros, manuais de engenharia, slides de apresentação e artigos científicos.

Resumo da Ópera:
O CMRAG é como dar a um detetive uma lupa para ler as letras miúdas e, ao mesmo tempo, óculos de visão noturna para ver os detalhes do cenário. Enquanto os outros detetives só tinham uma dessas ferramentas, o CMRAG usa as duas juntas para resolver o caso (responder à pergunta) com muito mais rapidez e precisão.

Eles até criaram um "treinamento" gigante (um conjunto de dados) para ensinar esse sistema a ser o melhor bibliotecário possível, e agora estão compartilhando tudo com a comunidade científica para que todos possam construir sistemas mais inteligentes.

Each language version is independently generated for its own context, not a direct translation.

Título: CMRAG: Recuperação e Resposta a Perguntas em Documentos Visuais Baseada em Co-modalidade

1. O Problema

O paradigma de Geração Aumentada por Recuperação (RAG) tornou-se fundamental para tarefas de resposta a perguntas em documentos. No entanto, métodos existentes enfrentam limitações significativas ao lidar com documentos multimodais (PDFs, artigos escaneados, relatórios financeiros, slides), que contêm texto, tabelas, fórmulas, imagens e estruturas de layout complexas.

As abordagens atuais dividem-se em duas categorias, ambas com falhas:

RAG Baseado em Texto: Utiliza análise de layout e extração de texto (OCR). Embora estável semanticamente, falha em capturar informações contidas em imagens, gráficos ou tabelas não estruturadas.
RAG Baseado em Imagem (Vision-based): Trata páginas de documentos como imagens e as processa diretamente com Modelos de Linguagem Visual (VLMs). Embora capture informações não textuais, ignora as vantagens semânticas precisas do texto extraído, levando a resultados subótimos de recuperação e geração.

O desafio central é como unificar efetivamente as modalidades de texto e imagem para recuperação e geração em documentos visuais, superando as discrepâncias de distribuição e escala entre os sinais de cada modalidade.

2. Metodologia Proposta: CMRAG

Os autores propõem o CMRAG (Co-Modality-based RAG), um framework que integra simultaneamente texto e imagens para uma recuperação e geração mais precisas. O sistema opera em três etapas principais:

Parsing do Documento: Um VLM (Qwen2.5-VL) é usado para analisar offline as páginas do documento, extraindo tanto a representação visual completa ( $I_i$ ) quanto o texto estruturado extraído ( $T_i$ ).
Recuperação Unificada (CMRAG-R):
- Modelo de Codificação Unificada (UEM): Projeta consultas, textos analisados e imagens em um espaço latente compartilhado. O UEM é construído sobre o backbone SigLIP.
  - Utiliza três codificadores: $E_q$ (consulta), $E_I$ (imagem) e $E_T$ (texto).
  - $E_q$ e $E_I$ são congelados (pré-treinados), enquanto $E_T$ é inicializado como uma cópia estendida de $E_q$ para lidar com textos longos.
  - Treinamento: O modelo é treinado com uma função de perda baseada em triplas (consulta, texto, imagem) usando uma Perda de Alinhamento Dual-Sigmoid (DSA). Isso alinha as três modalidades em um espaço comum sem sobrecarga computacional adicional.
- Recuperação Informada por Co-modalidade Unificada (UCMR):
  - Calcula pontuações de similaridade internas (dot-product) separadamente para texto ( $z^T$ ) e imagem ( $z^I$ ).
  - Normalização Estatística: Para mitigar as diferenças nas distribuições e escalas das pontuações brutas, aplica-se uma função sigmoide para normalizar os valores para o intervalo [0,1], seguida de uma normalização Z-score (subtrair a média e dividir pelo desvio padrão).
  - Fusão: As pontuações normalizadas são combinadas linearmente ( $\tilde{s}_i = \beta \tilde{z}^T_i + (1-\beta) \tilde{z}^I_i$ ), onde $\beta$ pondera a confiança na modalidade textual.
Geração: As evidências recuperadas (top-k páginas contendo imagem e texto) são alimentadas em um VLM gerador para produzir a resposta final.

3. Contribuições Principais

Framework CMRAG: Uma nova arquitetura RAG baseada em co-modalidade que supera as abordagens unimodais (apenas texto ou apenas imagem) em documentos visuais.
Modelo UEM (Unified Encoding Model): Um modelo de codificação unificado que utiliza um único conjunto de codificadores para todas as modalidades, treinado de ponta a ponta com perda de sigmoides em triplas, criando um espaço de embedding unificado.
Método UCMR: Uma técnica de recuperação que emprega normalização estatística para combinar efetivamente pontuações de similaridade visual e textual, resolvendo o desafio de fusão de pontuações cruzadas.
Dataset de Triplas em Larga Escala: Os autores construíram e lançaram um grande dataset de triplas $(consulta, texto, imagem)$ derivado de um corpus de documentos visuais de código aberto, facilitando pesquisas futuras em aprendizado de co-modalidade.
Validação Experimental: Extensivos experimentos demonstram a superioridade do método em múltiplos benchmarks de VDQA (Visual Document Question Answering).

4. Resultados Experimentais

O CMRAG foi avaliado em seis benchmarks de VDQA (incluindo MMLongBench, REAL-MM-RAG, LongDocURL, e subconjuntos de relatórios e slides financeiros/técnicos).

Recuperação (MRR@10): O CMRAG superou consistentemente todas as linhas de base, incluindo modelos de embedding de texto puro (BGE), modelos de imagem (CLIP, SigLIP, SigLIP2) e combinações simples.
- Destaque: Em documentos ricos em texto (como Finreport), o texto puro (BGE) performou bem, mas o CMRAG manteve-se competitivo ou superior. Em documentos visuais (Slides), a abordagem baseada apenas em imagem falhou, enquanto o CMRAG obteve os melhores resultados.
- O modelo superou o SigLIP2, que performou surpreendentemente mal, sugerindo que pré-treinamentos mais fortes em visão-linguagem não garantem melhor desempenho em recuperação de documentos estruturados.
Geração: O framework CMRAG superou as linhas de base em todas as métricas de geração.
- Estudo de Caso (Oracle): Experimentos mostraram que fornecer ao gerador evidências de ambas as modalidades (imagem + texto) resultou na maior precisão, confirmando o valor complementar das fontes.
- Análise de Discrepância: Em alguns casos (ex: slides financeiros), o uso excessivo de contexto textual pode prejudicar a geração se a imagem for a fonte primária de informação, sugerindo a necessidade de controle dinâmico de modalidades no futuro.
Custo Computacional: A análise de custo mostra que o CMRAG adiciona latência negligenciável na fase online, pois a codificação de imagens e textos é feita offline. O custo online é dominado pela codificação única da consulta.

5. Significância e Conclusão

O trabalho demonstra que integrar informações de co-modalidade em um framework RAG unificado é uma abordagem eficaz para melhorar sistemas complexos de VDQA.

Insights Chave:
- Documentos dominados por texto beneficiam-se da recuperação explícita de texto, enquanto documentos visuais exigem a integração de imagens.
- A normalização estatística das pontuações de similaridade é crucial para fundir modalidades heterogêneas.
- O pré-treinamento de modelos de visão-linguagem não se traduz automaticamente em melhor recuperação de documentos; adaptações específicas (como o UCMR) são necessárias.
Aplicações Práticas: O framework é aplicável em cenários corporativos como busca de conhecimento em relatórios e manuais, suporte técnico (comparando descrições textuais com capturas de tela/diagramas) e assistência a documentos científicos.

Em resumo, o CMRAG estabelece um novo estado da arte ao tratar documentos visuais não como meras imagens ou textos isolados, mas como entidades multimodais coesa, onde a recuperação e a geração são otimizadas conjuntamente através de um espaço de embedding unificado e fusão de pontuações normalizada.

CMRAG: Co-modality-based visual document retrieval and question answering

1. O Tradutor Universal (UEM - Modelo de Codificação Unificado)

2. O Filtro Inteligente (UCMR - Recuperação Informada por Co-modalidade)

3. O Grande Final (Geração)

Por que isso é importante?

Título: CMRAG: Recuperação e Resposta a Perguntas em Documentos Visuais Baseada em Co-modalidade

1. O Problema

2. Metodologia Proposta: CMRAG

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models