ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

O artigo apresenta o ORCA, um novo framework multiagente que utiliza coordenação estratégica, agentes especializados e mecanismos de debate para superar as limitações atuais na resposta a perguntas visuais em documentos complexos, alcançando desempenho superior em benchmarks.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa responder a uma pergunta muito difícil sobre um documento complexo, como um contrato cheio de tabelas, gráficos, anotações manuscritas e texto normal. Se você pedir para um único "super-robô" (um modelo de inteligência artificial comum) ler tudo e responder, ele pode se confundir, pular detalhes ou inventar respostas. É como pedir para uma única pessoa fazer o trabalho de um escritório inteiro: ela tenta fazer tudo ao mesmo tempo e acaba cometendo erros.

O ORCA (Orquestrado com Agentes Colaborativos) é a solução proposta neste artigo. Em vez de um único robô gigante, o ORCA é como uma equipe de especialistas trabalhando juntos, cada um com sua própria habilidade, sob a coordenação de um chefe.

Aqui está como funciona, passo a passo, usando analogias do dia a dia:

1. O "Detetive" (Agente de Raciocínio)

Tudo começa com um Detetive. Quando você faz a pergunta, ele não tenta responder imediatamente. Em vez disso, ele olha para o documento e diz: "Ok, para responder a isso, precisamos primeiro encontrar a tabela de vendas, depois ler a letra miúda manuscrita e, por fim, somar os valores."
Ele quebra o problema grande em pequenos passos lógicos. Isso é como um professor de matemática que ensina a criança a resolver a equação passo a passo, em vez de apenas dar o resultado final.

2. O "Gerente de Contratação" (Roteador)

Com o plano do Detetive em mãos, entra o Gerente. Ele olha para a lista de tarefas e decide quem precisa ser chamado.

  • Se a tarefa é ler letra manuscrita, ele chama o Especialista em Caligrafia.
  • Se é ler uma tabela, ele chama o Especialista em Planilhas.
  • Se é entender um gráfico, ele chama o Especialista em Imagens.
    O Gerente garante que a pessoa certa faça o trabalho certo, em vez de tentar forçar um especialista em gráficos a ler uma tabela.

3. A "Reunião de Especialistas" (Execução Colaborativa)

Agora, os especialistas trabalham em sequência. O primeiro passa a informação para o segundo, que passa para o terceiro. É como uma linha de montagem de alta tecnologia, onde cada peça é verificada e aprimorada antes de ir para a próxima estação.

4. O "Advogado do Diabo" e o "Juiz" (Debate e Verificação)

Aqui está a parte mais inteligente e diferente do ORCA.

  • O Teste de Estresse: Antes de entregar a resposta final, o sistema pergunta: "Você tem certeza?". Se o Detetive e o Especialista final tiverem respostas diferentes, o sistema não entrega nada ainda.
  • O Debate: Um Advogado do Diabo (um agente que tenta encontrar falhas) entra em cena. Ele tenta convencer o Especialista de que a resposta pode estar errada, apresentando contra-argumentos baseados no documento.
  • O Juiz: Um terceiro agente, o Juiz, observa esse debate. Se o Especialista conseguir defender sua resposta com fatos, o Juiz aprova. Se o Advogado do Diabo provar que há um erro, eles voltam a pensar e corrigem.
    Isso é como um júri em um tribunal: em vez de aceitar a primeira opinião, eles debatem para garantir que a verdade seja encontrada.

5. O "Revisor de Estilo" (Refinamento)

Por fim, um Revisor olha para a resposta final. Ele não muda o significado, mas garante que a formatação esteja perfeita (por exemplo, se o documento diz "R$ 10,00" e a resposta saiu "10 reais", ele corrige para o formato exato do documento).

Por que isso é tão bom?

  • Precisão: Como cada especialista foca em uma coisa só, eles cometem menos erros do que um "generalista" tentando fazer tudo.
  • Confiança: O sistema de debate funciona como um "segundo pensamento". Se o sistema está inseguro, ele debate consigo mesmo antes de te dar a resposta.
  • Flexibilidade: Se um documento tem uma tabela e um gráfico, o ORCA chama os dois especialistas. Se é só texto, ele só chama o especialista em texto.

O Resultado

O artigo mostra que, ao usar essa "equipe de especialistas" em vez de um único robô, o ORCA consegue responder perguntas sobre documentos complexos com muito mais precisão do que os melhores sistemas atuais. Ele é mais inteligente, mais cuidadoso e, principalmente, mais confiável, porque nunca entrega uma resposta sem antes ter "discutido" e verificado se ela faz sentido.

Em resumo: O ORCA não é um único gênio; é uma orquestra perfeita onde cada músico toca sua parte, e um maestro garante que todos estejam afinados antes do show começar.