Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

O artigo apresenta o Batch-of-Thought (BoT), um método sem treinamento que melhora o raciocínio de Grandes Modelos de Linguagem ao processar consultas relacionadas em conjunto para identificar padrões compartilhados e detectar erros, resultando em maior precisão e redução de custos de inferência.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor corrigindo provas de uma turma inteira.

O jeito antigo (como os modelos de IA funcionam hoje):
Você pega a prova do aluno João, corrige, dá a nota e guarda. Depois, pega a prova da Maria, corrige, dá a nota e guarda. Você trata cada aluno como se fosse um universo isolado. Se João e Maria cometerem o mesmo erro bobo, você só descobre isso depois de corrigir as duas individualmente. Você perde a chance de ver um padrão: "Ei, todos da turma estão confundindo 'fotossíntese' com 'respiração celular'!".

O novo jeito (Batch-of-Thought ou "Pensamento em Lote"):
Agora, imagine que você pega as provas de 8 alunos de uma vez e as espalha na mesa. Em vez de corrigir uma por uma, você olha para o grupo todo.

  • Você vê que 7 alunos acertaram a resposta, mas o João e a Maria escreveram algo diferente.
  • Você percebe que a resposta do João parece estranha comparada à dos outros 7.
  • Você usa o consenso do grupo para ajudar o João a corrigir o erro dele, e vice-versa.

Essa é a ideia central do paper "Batch-of-Thought" (BoT).

A Metáfora do "Comitê de Especialistas"

Pense em um modelo de Inteligência Artificial (LLM) como um único especialista muito inteligente, mas que às vezes se distrai ou tem um "branco".

  1. O Problema: Quando esse especialista responde a uma pergunta sozinho, ele pode ter certeza absoluta de que está certo, mesmo estando errado. É como alguém que jura que viu um fantasma, mas na verdade era apenas uma sombra.
  2. A Solução (BoT): Em vez de deixar o especialista responder a 100 perguntas de uma vez (uma de cada vez), a equipe do paper propõe agrupar perguntas relacionadas (um "lote") e pedir para o especialista responder a todas ao mesmo tempo, olhando para as respostas das outras enquanto pensa.

É como se você tivesse um comitê de reflexão. Enquanto o especialista (chamado de "Ator") gera as respostas, um segundo agente (o "Refletor") olha para todas as respostas juntas e diz:

  • "Ei, a resposta 3 parece muito diferente das outras 7. Vamos revisar."
  • "A resposta 5 está perfeita e pode servir de modelo para a resposta 2, que está meio confusa."

Por que isso é incrível? (Os 3 Grandes Benefícios)

O paper mostra que fazer isso traz três vantagens mágicas:

  1. Mais Precisão (A "Voz da Turma"):
    Se a maioria do grupo está certa, é mais fácil identificar quem está errado. O sistema usa a "sabedoria das multidões" para corrigir erros individuais. É como em um jogo de quiz: se você está em dúvida entre duas opções, mas vê que 90% dos outros jogadores escolheram a opção A, você tende a mudar para a A. O BoT faz isso automaticamente.

  2. Menos Custo (Economia de Dinheiro):
    Isso parece contra-intuitivo (olhar para tudo ao mesmo tempo não parece mais barato?), mas é.

    • Antes: O sistema tinha que "ler" as instruções de como corrigir uma resposta 100 vezes (uma para cada pergunta).
    • Agora: O sistema lê as instruções de correção uma única vez para o lote todo. É como comprar um ingresso de grupo para o cinema em vez de 100 ingressos individuais. O papel mostra que isso pode economizar até 61% do custo de processamento.
  3. Confiança Realista (Saber o que sabe):
    Muitas IAs atuais são "confiantes demais" (acham que estão certas mesmo quando erram). Ao comparar as respostas entre si, o sistema consegue dizer: "Olha, eu tenho 90% de certeza porque 9 das 10 respostas parecidas comigo concordam". Isso torna a IA mais honesta sobre suas dúvidas.

Quando isso funciona melhor?

O paper descobriu uma regra de ouro:

  • Funciona muito bem em tarefas de interpretação: Como medicina, direito, história ou detectar fraudes. Nessas áreas, não existe apenas uma resposta matemática exata; existem nuances. Comparar casos ajuda a encontrar o padrão certo.
  • Funciona menos em matemática pura: Se a pergunta é "2 + 2", não adianta comparar com "3 + 3". A matemática exige lógica exata, não consenso. Se todos errarem a conta da mesma forma, o grupo todo vai errar junto.

Resumo da Ópera

O Batch-of-Thought é como transformar um grupo de especialistas solitários em uma equipe colaborativa. Em vez de cada um trabalhar no escuro, eles trocam olhares, usam a experiência uns dos outros para corrigir erros e, no final, entregam um trabalho melhor, mais barato e com mais confiança.

É uma mudança de mentalidade: de "responder pergunta por pergunta" para "entender o contexto de todo o grupo".