Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um bibliotecário muito inteligente (o LLM, ou Modelo de Linguagem) em uma biblioteca gigante. O seu trabalho é encontrar o livro perfeito para um cliente que chega com uma pergunta vaga, como "como consertar algo quebrado?".

O problema é que o cliente usa palavras simples, mas os livros na biblioteca usam termos técnicos e específicos. Se você procurar apenas pelas palavras exatas do cliente, pode não encontrar nada útil. Isso é o que chamamos de "expansão de consulta" no mundo da busca na internet: tentar adivinhar outras palavras que o cliente poderia ter usado para achar o que precisa.

Este artigo apresenta uma nova maneira de fazer isso, que é automática, inteligente e não precisa de ajuda humana constante. Vamos explicar como funciona usando uma analogia de uma equipe de detetives.

1. O Problema: O Detetive Solitário e os Exemplos Errados

Antes, os sistemas de busca funcionavam assim:

O Detetive Solitário: Usava apenas um único modelo de IA.
Os Exemplos Manuais: Alguém tinha que escrever à mão exemplos de perguntas e respostas para ensinar o detetive. Se o detetive fosse treinado com exemplos de "receitas de bolo" e você pedisse para ele procurar "como consertar um motor", ele ficaria confuso.
Resultado: Funcionava bem em alguns casos, mas falhava miseravelmente quando o assunto mudava (mudança de domínio).

2. A Solução Proposta: A Equipe de Detetives Automatizada

Os autores criaram um sistema de três etapas que funciona como uma equipe de investigação superorganizada:

Etapa 1: O Arquivo de Casos (Construção do Pool de Exemplos)

Em vez de alguém escrever os exemplos manualmente, o sistema cria seu próprio "arquivo de casos" usando a própria biblioteca.

Como funciona: O sistema pega uma pergunta, joga no sistema de busca básico (BM25) para achar os documentos mais parecidos, e depois usa um "juiz" (MonoT5) para confirmar se aquele documento é realmente útil.
A Analogia: É como se o detetive olhasse para o passado, pegasse casos antigos que foram resolvidos com sucesso e os organizasse em uma pasta chamada "Casos Reais". Agora, ele tem milhares de exemplos reais do mesmo tipo de problema que ele vai enfrentar hoje.

Etapa 2: Escolhendo os Mentores Certos (Seleção por Agrupamento)

Ter 100.000 exemplos na pasta é bom, mas mostrar todos eles para o detetive antes de cada pergunta deixaria o sistema lento e confuso.

O Truque: O sistema usa uma técnica de "agrupamento" (clustering). Imagine que ele separa os casos em grupos baseados no tema (ex: um grupo para "motores", outro para "eletrônicos", outro para "medicina").
A Escolha: De cada grupo, ele escolhe apenas um exemplo que seja o "centro" daquele grupo (o mais representativo).
Resultado: Antes de responder à pergunta do cliente, o sistema pega 4 exemplos perfeitos e relevantes daquele tema específico. Isso é chamado de Aprendizado em Contexto (ICL). O detetive olha para esses exemplos e diz: "Ah, entendi! Quando alguém pergunta sobre motores, eu devo pensar em 'pistão' e 'óleo', não em 'farinha'".

Etapa 3: A Reunião de Detetives (Ensemble de Dois LLMs + Refinamento)

Aqui está a parte mais genial. Em vez de confiar em apenas um detetive, eles usam dois detetives diferentes (dois modelos de IA diferentes, como Qwen e Llama) para trabalhar no mesmo caso.

Detetive A lê os exemplos e sugere uma lista de palavras-chave.
Detetive B faz o mesmo, mas com sua própria perspectiva.
O Chefe (Modelo de Refinamento): Um terceiro detetive (o "Chefe") recebe as duas listas. Ele não apenas cola as duas listas uma na outra (o que geraria repetição e bagunça). Ele reescrita a informação, fundindo as melhores ideias de ambos, removendo o que é redundante e criando uma única, perfeita e coerente lista de palavras-chave.

Por que isso é incrível?

Não precisa de rótulos humanos: O sistema se ensina sozinho usando os dados que já tem. É como um estagiário que aprende lendo os arquivos da empresa, sem precisar de um professor o tempo todo.
Adaptável: Se você mudar a biblioteca (de receitas para medicina), o sistema reorganiza seus exemplos automaticamente.
Melhor que a soma das partes: A "reunião" dos dois detetives com o chefe refinando a resposta funciona muito melhor do que qualquer um deles trabalhando sozinho. É como se dois especialistas conversassem e chegassem a uma conclusão mais precisa do que se cada um tentasse adivinhar sozinho.

O Resultado Final

O teste mostrou que essa equipe automatizada encontrou as respostas certas muito mais vezes do que os métodos antigos (que usavam apenas palavras-chave simples ou exemplos fixos escritos à mão).

Em resumo: O papel descreve um sistema onde a IA cria seus próprios exemplos de treinamento, escolhe os melhores exemplos para a situação atual e usa uma "reunião de especialistas" para gerar a melhor pergunta possível, tudo isso sem precisar de humanos escrevendo nada manualmente. É como ter um bibliotecário que aprende rápido, se adapta a qualquer assunto e sempre traz o livro exato que você precisa.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Construção Automática de Exemplares e Refinamento Baseado em LLM para Expansão de Consultas

1. O Problema

A Expansão de Consulta (Query Expansion - QE) visa mitigar o desajuste de vocabulário entre as consultas dos usuários e os documentos relevantes. Embora métodos clássicos de Feedback de Relevância Pseudo (PRF), como Rocchio e RM3, sejam eficazes, eles dependem fortemente do classificador inicial e não conseguem injetar conhecimento semântico além do corpus.

O uso de Grandes Modelos de Linguagem (LLMs) para QE oferece uma nova paradigma, gerando reformulações semanticamente ricas. No entanto, as abordagens atuais enfrentam três limitações principais:

Dependência de Mão de Obra: Frequentemente dependem de prompts artesanais ou exemplares (demonstrações) escolhidos manualmente.
Falta de Escalabilidade e Adaptação: A maioria dos pipelines usa exemplares de domínios incompatíveis (out-of-domain), o que torna o desempenho instável e sensível a mudanças de domínio.
Uso de Modelo Único: A maioria dos estudos utiliza apenas um LLM, ignorando o potencial de combinar o conhecimento complementar de múltiplos modelos de forma sem treinamento (training-free).

2. Metodologia

O artigo propõe um framework totalmente automatizado, adaptativo a domínios e livre de rótulos (label-free), composto por três estágios principais (ilustrado na Figura 1 do artigo):

Estágio 1: Construção Automática do Pool de Exemplares In-Domain

Objetivo: Criar um grande conjunto de pares (consulta, expansão) dentro do domínio alvo sem anotação humana.
Processo: Utiliza-se um pipeline BM25 → MonoT5. Para consultas semente (treino), o BM25 recupera os top-N candidatos, que são reclassificados pelo MonoT5. O documento com a maior pontuação é tratado como um "passagem pseudo-relevante".
Resultado: Gera pools de exemplares específicos do domínio (ex: 100k para MS MARCO, 809 para SciFact) que servem como base para o In-Context Learning (ICL).

Estágio 2: Seleção de Exemplares via Agrupamento (Clustering)

Problema: A escolha e a ordem dos exemplos no ICL são críticas e sensíveis.
Solução: Uma estratégia de seleção baseada em agrupamento (clustering) sem treinamento.
1. Gera-se embeddings (usando o modelo Contriever) para todos os candidatos no pool.
2. Aplica-se o algoritmo K-means para dividir o pool em $k$ grupos semânticos.
3. Seleciona-se o medoide (o exemplo mais próximo do centro do cluster) de cada grupo.
Benefício: Garante diversidade temática e estabilidade nas demonstrações fornecidas ao LLM, alinhadas ao domínio específico.

Estágio 3: Ensemble de Dois LLMs com Refinamento

Geração Paralela: Duas LLMs heterogêneas (ex: Qwen-2.5-7B e Llama-3.1-8B) geram expansões independentes usando os mesmos exemplares selecionados.
Refinamento por LLM: Um terceiro LLM (o mesmo modelo de refinamento) atua como um módulo de consolidação. Ele recebe a consulta original e as duas expansões geradas, instruindo-se a fundi-las em um único parágrafo coerente, eliminando redundâncias e ruídos, enquanto preserva entidades úteis e conhecimento de domínio.
Consulta Final: A consulta expandida é formada pela concatenação de 5 cópias da consulta original + a expansão refinada.

3. Contribuições Principais

Pipeline Automatizado e Livre de Rótulos: Um método para construir grandes pools de exemplares de QE in-domain usando apenas recuperação e reclassificação (BM25-MonoT5), eliminando a necessidade de anotação humana.
Estratégia de Seleção de Demonstração: Uma abordagem simples e reprodutível baseada em clustering para selecionar demonstrações estáveis e diversas para ICL, superando a seleção aleatória ou fixa.
Ensemble de Múltiplos LLMs sem Treinamento: Introdução de um mecanismo de fusão em nível de consulta que utiliza um LLM de refinamento para sintetizar saídas de dois modelos heterogêneos, explorando complementaridade lexical e semântica sem necessidade de fine-tuning ou múltiplas rodadas de recuperação.

4. Resultados Experimentais

Os métodos foram avaliados em três benchmarks públicos: TREC DL20 (busca web), DBPedia-Entity (busca de entidades) e SciFact (verificação de claims científicos).

Desempenho Geral: A abordagem proposta superou consistentemente as linhas de base clássicas (BM25, BM25+Rocchio) e métodos baseados em LLM (Zero-shot, Few-shot com exemplares fixos).
Impacto dos Exemplares In-Domain: O método Cluster-ICL QE (com exemplares selecionados por clustering) superou significativamente o FewShot-Fixed (exemplares externos), demonstrando que a adaptação ao domínio é crucial.
Eficácia do Ensemble Refinado: A versão com refinamento (Two-LLM QE (Refine)) obteve os melhores resultados em todos os conjuntos de dados.
- No TREC DL20, houve um ganho absoluto de +4.15 no NDCG@10 em comparação com o Cluster-ICL QE.
- No SciFact, o refinamento aumentou o NDCG@10 para 72.07.
- Os ganhos foram estatisticamente significativos (teste t pareado, $p \le 0.05$ ).
Robustez: O método mostrou-se eficaz tanto em recuperação lexical (BM25) quanto em recuperação densa (SBERT), indicando que a expansão gerada é de alta qualidade semântica.
Análise de Ablação:
- A simples concatenação de duas expansões traz ganhos modestos, mas o refinamento por LLM é essencial para a máxima performance.
- Aumentar o comprimento da geração (de 64 para 128 tokens) em um único modelo degradou o desempenho (ruído), enquanto o refinamento multi-LLM manteve a qualidade com comprimento controlado.

5. Significado e Conclusão

Este trabalho demonstra que a combinação de exemplares in-domain construídos automaticamente com refinamento colaborativo de múltiplos LLMs é uma estratégia poderosa para Expansão de Consulta.

Praticidade: Oferece uma solução prática para o mundo real, eliminando a dependência de anotação manual e de fine-tuning custoso.
Reprodutibilidade: O framework serve como um testbed reprodutível para seleção de exemplares e geração multi-LLM.
Inovação: Valida que a fusão de perspectivas de modelos heterogêneos, mediada por um agente de refinamento, supera a geração de um único modelo, estabelecendo um novo estado da arte para QE baseada em ICL sem supervisão.

O código e os pools de candidatos foram disponibilizados para fomentar pesquisas futuras em recuperação de informação escalável e adaptativa a domínios.