Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro de aluguel em uma viagem longa. A primeira metade da viagem é feita com um carro esportivo vermelho, muito rápido e com um sistema de navegação muito específico. De repente, no meio do caminho, você precisa trocar de veículo para um caminhão azul, mais lento, mas com um sistema de navegação totalmente diferente.

O problema não é apenas que o caminhão é mais lento. O problema é que o caminhão precisa continuar a viagem baseado nas instruções e no estilo do carro esportivo. Se o carro vermelho disse "vire à esquerda na próxima curva" de um jeito muito específico, o caminhão pode ficar confuso, não saber se deve seguir a mesma lógica ou se deve ignorar e fazer do seu jeito. O resultado? Você pode acabar no lugar errado, mesmo que o caminhão seja um ótimo veículo por si só.

Este é exatamente o problema que o artigo "Avaliando a Deriva de Desempenho na Troca de Modelos em Sistemas de IA Multi-turno" investiga.

Aqui está uma explicação simples do que os pesquisadores descobriram:

1. O Cenário: A "Troca de Guardas" na Conversa

Hoje em dia, quando você fala com uma Inteligência Artificial (IA) em várias mensagens (como num chat), o sistema por trás pode mudar de um modelo para outro no meio da conversa. Isso acontece por atualizações, para economizar dinheiro ou porque um modelo falhou e outro assumiu.

Os pesquisadores chamam isso de "Handoff" (entrega).

Modelo Prefixo (A): É o primeiro modelo que gera as primeiras mensagens.
Modelo Sufixo (B): É o segundo modelo que recebe o histórico e precisa responder à última mensagem.

A pergunta do estudo é: O Modelo B consegue responder bem se o histórico foi escrito pelo Modelo A? Ou a mudança de "personalidade" e "estilo" entre eles causa erros silenciosos?

2. O Experimento: A Matriz de Troca

Para testar isso, os autores criaram um "tabuleiro de xadrez" gigante (uma matriz). Eles pegaram 9 modelos diferentes de grandes empresas (como OpenAI, Google, Anthropic) e testaram todas as combinações possíveis:

O que acontece se o Modelo A escreve o início e o Modelo A termina? (Sem troca - a linha de base).
O que acontece se o Modelo A escreve o início e o Modelo B termina? (Com troca).

Eles fizeram isso em dois tipos de jogos:

Perguntas sobre uma história (CoQA): Onde a resposta está no texto, mas a IA precisa lembrar de quem está falando.
Seguir regras estritas (Multi-IF): Onde a IA precisa seguir formatos específicos (ex: "responda em 3 linhas", "use letras maiúsculas").

3. As Descobertas Surpreendentes

A. A "Deriva Silenciosa" é Real e Perigosa

Mesmo trocando apenas na última mensagem, o desempenho muda drasticamente.

Em alguns casos, a troca faz a IA errar muito mais (como se o caminhão azul tivesse esquecido como dirigir).
Em outros casos, a troca melhora a resposta! Às vezes, um modelo "mais fraco" no final consegue fazer um trabalho melhor se o modelo "mais forte" no início tiver estabelecido um bom estilo de conversa.

B. Nem Todos os Modelos Reagem Igual

O estudo descobriu dois tipos de comportamento principais:

Modelos "Frágeis": Alguns modelos (como o DeepSeek no estudo) ficam confusos e pioram muito se o histórico não foi escrito por eles mesmos. Eles são como um ator que só consegue atuar se o roteiro for escrito por ele.
Modelos "Adaptáveis": Outros modelos (como o Gemini ou o Qwen) ficam até melhores se o histórico vier de outro modelo. Eles são como atores que conseguem entrar em qualquer peça e seguir o ritmo dos outros.

C. O "Efeito Ancoragem"

No teste de seguir regras (Multi-IF), eles viram que o problema muitas vezes não é falta de inteligência, mas sim hábito.

Se o primeiro modelo começou a responder em formato de lista, o segundo modelo tende a continuar em lista, mesmo que não devesse.
Se o primeiro modelo foi muito formal, o segundo pode ficar preso nesse formalismo.
Isso significa que o "estilo" do primeiro modelo "ancora" o comportamento do segundo.

4. A Solução Proposta: O "Termômetro de Risco"

Os pesquisadores criaram uma maneira simples de prever se uma troca vai dar errado, sem precisar testar tudo de novo. Eles dividiram o problema em duas partes:

Influência do Prefixo: Quão forte é o "estilo" que o primeiro modelo impõe?
Susceptibilidade do Sufixo: Quão fácil é para o segundo modelo ser influenciado (ou confundido) por esse estilo?

Com isso, eles conseguiram prever cerca de 70% a 74% dos erros de troca apenas olhando para essas duas características. É como ter um termômetro que diz: "Cuidado! Se você misturar o Modelo X com o Modelo Y, a temperatura vai subir e a conversa vai derreter."

Conclusão: Por que isso importa?

Antes, as empresas testavam cada modelo de IA isoladamente, como se eles fossem carros que nunca trocavam de motorista. Este estudo mostra que a compatibilidade entre modelos é tão importante quanto a qualidade individual deles.

Para o futuro, isso significa que os sistemas de IA precisam ter um "olho extra" nas trocas. Antes de mudar de modelo no meio de uma conversa com um cliente, o sistema deveria verificar: "Será que esse novo modelo vai entender o que o anterior disse?". Se não, ele pode precisar de um pequeno "resumo de transição" para evitar que a IA fique confusa e cometa erros silenciosos.

Em resumo: Não basta ter bons modelos; é preciso garantir que eles se entendam quando passam o bastão.

Each language version is independently generated for its own context, not a direct translation.

Título: Avaliação do Desvio de Desempenho por Troca de Modelos em Sistemas LLM Multi-turno

1. O Problema: Desalinhamento de Contexto em Sistemas de Produção

Sistemas de Grandes Modelos de Linguagem (LLMs) implantados em produção frequentemente realizam trocas de modelos no meio de uma interação (diálogo multi-turno). Isso ocorre devido a atualizações de software, roteamento entre provedores diferentes (cross-provider) ou mecanismos de fallback (recuperação de falhas).

O problema central identificado pelos autores é o desalinhamento de contexto (context mismatch):

O modelo que gera as respostas finais (modelo "sufixo") deve condicionar sua geração em um histórico de diálogo escrito por um modelo diferente (modelo "prefixo").
Essa troca cria um desvio de distribuição estruturado. O modelo sufixo não está apenas continuando uma tarefa, mas herdando convenções implícitas, nível de verbosidade, formatação e "compromissos" do modelo prefixo.
A literatura atual e os benchmarks padrão assumem implicitamente que o mesmo modelo é usado durante toda a interação, ignorando esse desvio de desempenho silencioso que pode degradar a qualidade ou a consistência do sistema.

2. Metodologia: O Benchmark de Matriz de Troca (Switch-Matrix)

Os autores introduzem um protocolo de avaliação inovador para medir esse fenômeno isoladamente:

Definição do Cenário: Para cada par ordenado de modelos $(A, B)$ , o modelo $A$ gera as primeiras $T$ voltas do diálogo, e o modelo $B$ gera a volta final (política de troca na última volta).
Linha de Base (Baseline): A comparação é feita contra o caso "sem troca" (diagonal da matriz), onde o modelo $B$ gera todo o diálogo desde o início.
Métrica de Desvio ( $\Delta_{A \to B}$ ): O efeito da troca é quantificado pela diferença pareada nas pontuações por episódio:
$\delta_{A \to B}(e) = s_{A \to B}(e) - s_{B \to B}(e)$
Onde $s$ é a pontuação do episódio. Um $\Delta$ negativo indica que o prefixo de $A$ prejudicou $B$ em comparação com o cenário onde $B$ escreveu seu próprio contexto.
Benchmarks Utilizados:
1. CoQA (Conversational Question Answering): Foca em "grounding" conversacional. O modelo deve responder perguntas sobre um texto, mantendo coerência com as respostas anteriores (resolução de coreferência, escolhas de entidades).
2. Multi-IF (Multi-turn Instruction Following): Foca em aderência cumulativa a restrições (formatação, palavras-chave, tamanho). O modelo deve seguir instruções que se acumulam ao longo das voltas.
Análise Estatística: Utilização de intervalos de confiança bootstrap pareados (BCa) para garantir que os desvios observados sejam estatisticamente significativos e não apenas ruído de variância do episódio.
Escala: Uma matriz de troca $9 \times 9$ foi executada com modelos de provedores líderes (Anthropic, OpenAI, Google, DeepSeek, Qwen) em 200 episódios por benchmark.

3. Contribuições Principais

Formalização da Troca como Fonte de Desvio: A primeira medição sistemática que isola o desvio induzido pela troca de modelos em sistemas multi-turno, comparando diretamente com uma linha de base sem troca.
Protocolo de Avaliação Eficiente: Introdução de um harness de avaliação com cache de gerações do modelo prefixo e análise estatística robusta para tornar a avaliação de matrizes completas computacionalmente viável.
Mapa de Desempenho Cruzado: Relato de matrizes de troca entre provedores, demonstrando que a troca na última volta pode induzir desvios mensuráveis não previstos pelos scores de benchmarks de modelo único.
Decomposição de Fatores: Proposição de decompor o desvio em dois fatores por modelo: Influência do Prefixo (quão bem um modelo define o regime de diálogo) e Susceptibilidade do Sufixo (quão bem um modelo se adapta a históricos alheios).

4. Resultados Chave

Desvio Direcional e Significativo: Mesmo uma única troca na última volta gera efeitos estatisticamente significativos.
- No Multi-IF, 25% das trocas foram significativas, com variações de -8% a +13% na taxa de sucesso estrita.
- No CoQA, 22% das trocas foram significativas, com variações de $\pm$ 4 pontos absolutos no F1.
- Comparação: A magnitude desses desvios é comparável à diferença de desempenho entre diferentes "tiers" de modelos (ex: GPT-5-nano vs. GPT-5-mini) quando usados sem troca.
Padrões de Compatibilidade Assimétrica:
- A robustez à troca não é uma propriedade apenas da qualidade do modelo, mas da pares ordenados (A, B). Uma troca que prejudica $B$ vindo de $A$ pode ser neutra ou benéfica na direção inversa.
- Efeito de Ancoragem: Modelos prefixos mais fortes podem "ancorar" um protocolo de saída compatível, melhorando modelos sufixos mais fracos (ex: Claude-Sonnet $\to$ GPT-5-nano aumentou o sucesso em ~13 pontos no Multi-IF).
- Fragilidade Específica: Alguns modelos são altamente sensíveis a históricos não próprios. O DeepSeek-v3.2 mostrou fragilidade no CoQA, enquanto o Gemini-2.5-flash melhorou sob quase qualquer prefixo estrangeiro no Multi-IF.
Decomposição do Desvio (Fatores Latentes):
- Os autores modelaram o desvio como: $\Delta_{A \to B} = \mu + \alpha_A + \beta_B + \epsilon$ .
- $\alpha_A$ : Influência média do prefixo.
- $\beta_B$ : Susceptibilidade do sufixo a históricos não próprios.
- Resultado: Este modelo simples explica ~70% da variância nos dados. Isso permite monitoramento comprimido de risco de troca sem testar todos os pares possíveis.

5. Significado e Implicações

Novo Eixo de Confiabilidade Operacional: A "robustez à troca" (handoff robustness) deve ser tratada como uma dimensão crítica de confiabilidade, distinta da qualidade do modelo em si. Benchmarks tradicionais de modelo único são insuficientes para prever o comportamento em sistemas dinâmicos.
Monitoramento e Mitigação:
- Sistemas de produção devem monitorar especificamente as primeiras voltas pós-troca.
- Sugere-se a realização de testes de "regressão de troca" (replay de históricos antigos em novos modelos candidatos) antes de atualizações.
- O uso dos fatores de influência/susceptibilidade permite prever pares de risco e aplicar mitigações, como a injeção de instruções de "handoff" ou roteamento inteligente.
Futuro: O trabalho abre caminho para estratégias de mitigação como resumos explícitos de troca, adaptadores leves aprendidos e políticas de roteamento otimizadas para continuidade entre modelos.

Em resumo, o paper demonstra que a troca de modelos em diálogos não é um evento neutro; ela introduz um viés sistemático que pode tanto degradar quanto melhorar o desempenho, dependendo da compatibilidade comportamental entre os modelos envolvidos.