Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Este artigo introduz um benchmark de matriz de troca que revela que a alternância de modelos em sistemas LLM de múltiplas voltas gera uma deriva de desempenho significativa e previsível devido a incompatibilidades de contexto, estabelecendo a robustez na troca como uma dimensão crítica de confiabilidade operacional que requer monitoramento específico.

Raad Khraishi, Iman Zafar, Katie Myles, Greig A Cowan

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro de aluguel em uma viagem longa. A primeira metade da viagem é feita com um carro esportivo vermelho, muito rápido e com um sistema de navegação muito específico. De repente, no meio do caminho, você precisa trocar de veículo para um caminhão azul, mais lento, mas com um sistema de navegação totalmente diferente.

O problema não é apenas que o caminhão é mais lento. O problema é que o caminhão precisa continuar a viagem baseado nas instruções e no estilo do carro esportivo. Se o carro vermelho disse "vire à esquerda na próxima curva" de um jeito muito específico, o caminhão pode ficar confuso, não saber se deve seguir a mesma lógica ou se deve ignorar e fazer do seu jeito. O resultado? Você pode acabar no lugar errado, mesmo que o caminhão seja um ótimo veículo por si só.

Este é exatamente o problema que o artigo "Avaliando a Deriva de Desempenho na Troca de Modelos em Sistemas de IA Multi-turno" investiga.

Aqui está uma explicação simples do que os pesquisadores descobriram:

1. O Cenário: A "Troca de Guardas" na Conversa

Hoje em dia, quando você fala com uma Inteligência Artificial (IA) em várias mensagens (como num chat), o sistema por trás pode mudar de um modelo para outro no meio da conversa. Isso acontece por atualizações, para economizar dinheiro ou porque um modelo falhou e outro assumiu.

Os pesquisadores chamam isso de "Handoff" (entrega).

  • Modelo Prefixo (A): É o primeiro modelo que gera as primeiras mensagens.
  • Modelo Sufixo (B): É o segundo modelo que recebe o histórico e precisa responder à última mensagem.

A pergunta do estudo é: O Modelo B consegue responder bem se o histórico foi escrito pelo Modelo A? Ou a mudança de "personalidade" e "estilo" entre eles causa erros silenciosos?

2. O Experimento: A Matriz de Troca

Para testar isso, os autores criaram um "tabuleiro de xadrez" gigante (uma matriz). Eles pegaram 9 modelos diferentes de grandes empresas (como OpenAI, Google, Anthropic) e testaram todas as combinações possíveis:

  • O que acontece se o Modelo A escreve o início e o Modelo A termina? (Sem troca - a linha de base).
  • O que acontece se o Modelo A escreve o início e o Modelo B termina? (Com troca).

Eles fizeram isso em dois tipos de jogos:

  1. Perguntas sobre uma história (CoQA): Onde a resposta está no texto, mas a IA precisa lembrar de quem está falando.
  2. Seguir regras estritas (Multi-IF): Onde a IA precisa seguir formatos específicos (ex: "responda em 3 linhas", "use letras maiúsculas").

3. As Descobertas Surpreendentes

A. A "Deriva Silenciosa" é Real e Perigosa

Mesmo trocando apenas na última mensagem, o desempenho muda drasticamente.

  • Em alguns casos, a troca faz a IA errar muito mais (como se o caminhão azul tivesse esquecido como dirigir).
  • Em outros casos, a troca melhora a resposta! Às vezes, um modelo "mais fraco" no final consegue fazer um trabalho melhor se o modelo "mais forte" no início tiver estabelecido um bom estilo de conversa.

B. Nem Todos os Modelos Reagem Igual

O estudo descobriu dois tipos de comportamento principais:

  • Modelos "Frágeis": Alguns modelos (como o DeepSeek no estudo) ficam confusos e pioram muito se o histórico não foi escrito por eles mesmos. Eles são como um ator que só consegue atuar se o roteiro for escrito por ele.
  • Modelos "Adaptáveis": Outros modelos (como o Gemini ou o Qwen) ficam até melhores se o histórico vier de outro modelo. Eles são como atores que conseguem entrar em qualquer peça e seguir o ritmo dos outros.

C. O "Efeito Ancoragem"

No teste de seguir regras (Multi-IF), eles viram que o problema muitas vezes não é falta de inteligência, mas sim hábito.

  • Se o primeiro modelo começou a responder em formato de lista, o segundo modelo tende a continuar em lista, mesmo que não devesse.
  • Se o primeiro modelo foi muito formal, o segundo pode ficar preso nesse formalismo.
  • Isso significa que o "estilo" do primeiro modelo "ancora" o comportamento do segundo.

4. A Solução Proposta: O "Termômetro de Risco"

Os pesquisadores criaram uma maneira simples de prever se uma troca vai dar errado, sem precisar testar tudo de novo. Eles dividiram o problema em duas partes:

  1. Influência do Prefixo: Quão forte é o "estilo" que o primeiro modelo impõe?
  2. Susceptibilidade do Sufixo: Quão fácil é para o segundo modelo ser influenciado (ou confundido) por esse estilo?

Com isso, eles conseguiram prever cerca de 70% a 74% dos erros de troca apenas olhando para essas duas características. É como ter um termômetro que diz: "Cuidado! Se você misturar o Modelo X com o Modelo Y, a temperatura vai subir e a conversa vai derreter."

Conclusão: Por que isso importa?

Antes, as empresas testavam cada modelo de IA isoladamente, como se eles fossem carros que nunca trocavam de motorista. Este estudo mostra que a compatibilidade entre modelos é tão importante quanto a qualidade individual deles.

Para o futuro, isso significa que os sistemas de IA precisam ter um "olho extra" nas trocas. Antes de mudar de modelo no meio de uma conversa com um cliente, o sistema deveria verificar: "Será que esse novo modelo vai entender o que o anterior disse?". Se não, ele pode precisar de um pequeno "resumo de transição" para evitar que a IA fique confusa e cometa erros silenciosos.

Em resumo: Não basta ter bons modelos; é preciso garantir que eles se entendam quando passam o bastão.