Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o dono de um grande shopping center (o Sistema de Busca Multi-Tenant). Dentro desse shopping, existem milhares de lojas diferentes (os Clientes ou "Tenants"), cada uma com seus próprios produtos, manuais e regras.

O problema é que, quando um cliente pergunta algo, o sistema de busca muitas vezes não sabe a resposta porque:

Não tem um mapa atualizado: As lojas têm dados "escuros" (informações que existem, mas ninguém organizou ou rotulou).
Atualizar o mapa é caro: Se você quiser melhorar a busca para uma loja, teria que reorganizar e reetiquetar os produtos de todas as lojas ao mesmo tempo. Isso pararia o shopping inteiro e custaria uma fortuna.

Este artigo, chamado "SUCCEEDING AT SCALE", apresenta uma solução inteligente para esse problema, dividida em duas partes principais:

1. Criando o Mapa Automático (Construção do Conjunto de Dados)

Antes de ensinar o sistema a buscar, você precisa de exemplos do que é uma "boa resposta". Normalmente, humanos teriam que ler milhares de documentos e dizer: "Isso responde a essa pergunta". Isso é lento e caro.

Os autores criaram uma fábrica automática de exemplos:

O Caçador de Tesouros (Fusão de Retriever): Em vez de confiar em um único robô para achar documentos, eles usaram um time de 7 robôs diferentes (alguns buscam por palavras-chave, outros por significado). Eles juntaram todas as descobertas desses robôs. É como pedir para 7 amigos diferentes procurarem um livro na biblioteca; se um deles achar, você já tem uma chance maior de sucesso.
O Juiz Inteligente (LLM-as-a-Judge): Com tantas descobertas, muitos são "falsos positivos" (coisas que parecem relacionadas, mas não ajudam). Eles usaram uma Inteligência Artificial avançada (um "Juiz") para ler a pergunta e a resposta candidata e dizer: "Isso realmente ajuda a resolver o problema?".
Resultado: Eles criaram um banco de dados de treinamento (o DevRev-Search) sem gastar um centavo com anotadores humanos, apenas usando a própria IA para filtrar o que é útil.

2. Ajustando o Sistema sem Parar o Shopping (Adaptação Preservando o Índice)

Aqui está a parte mais brilhante da solução.

O Problema Antigo:
Para melhorar a busca, os sistemas antigos precisavam reescrever o "cérebro" de quem lê a pergunta (o codificador de consultas) E o "cérebro" de quem lê os documentos (o codificador de documentos).

Analogia: Imagine que para melhorar a busca de um produto, você teria que reetiquetar todos os milhões de produtos do shopping. Se você tem 1.000 lojas, isso significa reetiquetar trilhões de itens. Impossível na prática.

A Solução Proposta (Adaptação Apenas na Consulta):
Os autores descobriram que você só precisa treinar o cérebro que entende a pergunta.

Analogia: Pense que os documentos (produtos) já estão em caixas organizadas com etiquetas fixas. Você não precisa mudar as etiquetas das caixas. Você só precisa treinar o funcionário da recepção (o codificador de consultas) para entender melhor o que o cliente está pedindo e saber qual caixa procurar.
Vantagem: Como as caixas (índices) não mudam, você pode adaptar o sistema para cada loja instantaneamente, sem parar o shopping e sem reorganizar nada.

3. O Truque de Eficiência (PEFT)

Eles também usaram uma técnica chamada PEFT (Ajuste Fino Eficiente de Parâmetros).

Analogia: Em vez de treinar todo o cérebro do funcionário (o que exigiria muito tempo e energia), eles apenas ajustaram pequenos "óculos" ou "ferramentas" que o funcionário usa.
Eles testaram diferentes tamanhos desses ajustes (chamados de LoRA) e descobriram que ajustes pequenos e inteligentes funcionam tão bem quanto treinar o cérebro inteiro, mas com uma fração do custo.

Resumo da História

Os autores criaram um método para:

Gerar dados de treinamento automaticamente usando uma equipe de robôs e um juiz de IA (sem humanos caros).
Melhorar a busca para cada cliente individualmente treinando apenas a parte que entende a pergunta, deixando os documentos intocados.
Fazer isso de forma barata e rápida usando ajustes pequenos e inteligentes no modelo.

O Resultado Final:
Um sistema de busca empresarial que é rápido, barato de adaptar para milhares de clientes diferentes e que funciona muito bem, mesmo sem ter um time gigante de pessoas rotulando dados manualmente. É como ter um shopping center onde cada loja pode ter sua própria busca personalizada instantaneamente, sem que o gerente precise reorganizar todo o estoque.

Each language version is independently generated for its own context, not a direct translation.

Título: SUCCEEDING AT SCALE: Construção Automatizada de Conjuntos de Dados e Adaptação Lado de Consulta para Busca Multi-Tenant

1. O Problema

O artigo aborda dois gargalos críticos na implementação de sistemas de recuperação de informação (RAG/Busca) em escala para ambientes empresariais multi-tenant (múltiplos clientes/locais):

Escassez de Dados Rotulados ("Dark Data"): Empresas possuem vastos corpora proprietários (tickets de suporte, documentação interna, rastreadores de problemas), mas carecem de rótulos de relevância curados. Benchmarks públicos (como BEIR) não capturam a natureza heterogênea e ruidosa desses dados.
Latência de Adaptação e "Taxa de Reindexação": Em arquiteturas de bi-encoder padrão, o ajuste fino (fine-tuning) simultâneo dos codificadores de consulta e documento exige a re-geração de embeddings para todo o corpus de documentos sempre que o modelo de documento é atualizado. Em sistemas com milhares de tenants e índices isolados, esse custo computacional e de tempo ("Re-indexing Tax") é proibitivo, impedindo a adaptação ágil a domínios específicos.

2. Metodologia

Os autores propõem uma abordagem unificada composta por três pilares principais:

A. Pipeline de Construção Automatizada de Dados (DevRev-Search)

Para superar a falta de dados rotulados, foi desenvolvido um pipeline totalmente automatizado para criar o benchmark DevRev-Search:

Coleta e Limpeza: Extração de consultas reais de interações de agentes, filtrando ruídos (código, testes) e garantindo diversidade via clustering.
Segmentação Semântica: Uso de Recursive Character Splitting para dividir documentos longos em chunks de até 500 caracteres, preservando limites estruturais naturais.
Geração de Candidatos por Fusão (Ensemble): Em vez de confiar em um único modelo, o sistema agrega os resultados de 7 recuperadores diferentes (6 densos e 1 lexical/BM25). Isso maximiza o recall, garantindo que documentos relevantes não sejam perdidos por viés de um único modelo.
Filtragem via LLM-as-a-Judge: Um Modelo de Linguagem de Grande Escala (LLM) atua como juiz para filtrar os candidatos agregados. O LLM remove falsos positivos (documentos com sobreposição lexical, mas sem resposta substantiva) e valida a relevância real, substituindo a anotação humana manual.

B. Adaptação Preservadora de Índice (Query-Only Adaptation)

Para evitar o custo de reindexação:

Estratégia Assimétrica: O codificador de documentos ( $E_d$ ) e o índice de busca são congelados. Apenas o codificador de consulta ( $E_q$ ) é ajustado (fine-tuned).
Isso permite que cada tenant tenha um modelo adaptado ao seu domínio específico sem a necessidade de reprocessar milhões de documentos.

C. Ajuste Fino Eficiente em Parâmetros (PEFT)

Para tornar a adaptação do codificador de consulta ainda mais eficiente, são testadas técnicas de PEFT:

LoRA (Low-Rank Adaptation): Adaptação de baixo posto.
Projeções Lineares e FFN: Adição de cabeçalhos lineares ou redes feed-forward sobre os embeddings.
Descongelamento Parcial: Descongelar apenas as camadas superiores do transformador.

3. Principais Contribuições

DevRev-Search Benchmark: Um novo conjunto de dados de alta fidelidade para recuperação em suporte técnico empresarial, construído sem anotação humana, utilizando fusão de recuperadores e validação por LLM.
Método de Adaptação Zero-Reindexação: Demonstração de que o ajuste fino apenas do codificador de consulta, mantendo o índice de documentos fixo, é viável e eficaz para ambientes multi-tenant.
Análise de Eficiência (PEFT): Evidência empírica de que técnicas como LoRA podem igualar ou superar o ajuste fino completo do codificador de consulta, com uma fração dos parâmetros treináveis.
Validação em Múltiplos Domínios: O método foi testado em DevRev-Search (empresarial), SciFact (científico) e FiQA-2018 (financeiro), demonstrando robustez.

4. Resultados

Os experimentos compararam o modelo base, o ajuste fino completo (Query-Document - QD) e o ajuste apenas de consulta (Query-Only - Q), além de variações PEFT:

Desempenho Query-Only vs. Full: A estratégia de ajustar apenas a consulta (Q) atingiu desempenho competitivo com o ajuste completo (QD). Em alguns casos (ex: modelo qwen3-4b no SciFact), o método Q superou ligeiramente o QD em Recall@10.
Eficiência do LoRA: A configuração LoRA (especificamente com rank $r=32$ $r = 32$ ou $64$) consistentemente igualou ou superou o ajuste fino completo do codificador de consulta.
- No DevRev-Search, o LoRA alcançou Recall@10 de 0.309 (arctic-l-v2) e 0.355 (qwen3-4b), comparável ao ajuste completo.
- O método reduziu os parâmetros treináveis de 100% para menos de 5% (dependendo do rank LoRA), permitindo implantação escalável.
Ablação de Módulos: O ajuste apenas nas camadas "Dense" (MLP) do LoRA mostrou um excelente compromisso entre eficiência e desempenho, muitas vezes superando o ajuste em todos os módulos.
Estabilidade: O uso de treinamento assíncrono ANCE (Approximate Nearest Neighbor Negative Contrastive Learning) foi crucial para evitar o colapso de representações durante o treinamento.

5. Significância e Impacto

Este trabalho é significativo para a indústria de busca empresarial porque:

Viabiliza a Adaptação de Domínio: Resolve o problema de "dados escuros" ao permitir a criação de conjuntos de dados de treinamento de alta qualidade sem custo de anotação humana.
Reduz Custos Operacionais: Elimina a necessidade de reindexação massiva, permitindo que plataformas multi-tenant atualizem seus modelos de busca para novos clientes ou domínios de forma rápida e barata.
Equilíbrio Qualidade-Custo: Demonstra que é possível obter ganhos de qualidade significativos em recuperação de informações utilizando apenas uma fração dos recursos computacionais necessários para o ajuste fino tradicional de bi-encoders.

Em resumo, o artigo apresenta um caminho prático para escalar sistemas de busca inteligente em empresas, combinando automação de dados com estratégias de adaptação de modelo economicamente viáveis.