Rigidity in LLM Bandits with Implications for Human-AI Dyads

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está em um jogo de aventura espacial. Você tem duas planetas para visitar: o Planeta X e o Planeta Y. O objetivo é coletar o máximo de moedas de ouro possível. O problema é que você não sabe de antemão qual planeta é mais rico; você precisa descobrir isso explorando e aprendendo com seus erros e acertos.

É exatamente nesse cenário que os pesquisadores colocaram Inteligências Artificiais (os famosos modelos de linguagem, como o GPT, Gemini e DeepSeek) para testar como elas tomam decisões. O resultado? Elas são incrivelmente teimosas e rígidas, agindo de uma forma que pode ser perigosa quando trabalhamos com humanos.

Aqui está a explicação do estudo, traduzida para uma linguagem simples e cheia de analogias:

1. O Jogo: Duas Situações, Duas Falhas

Os pesquisadores criaram dois cenários principais:

Cenário A (A Neblina): Ambos os planetas têm a mesma chance de ter ouro (25%).
- O que uma pessoa faria? Alternaria entre os dois, explorando para ver se descobre algo novo.
- O que a IA fez? Assim que ela escolheu o Planeta X na primeira vez e ganhou uma moeda, ela trancou a decisão. Ela continuou indo para o X o tempo todo, ignorando completamente o Y, mesmo que o Y pudesse ter ouro. Ela transformou um "palpite inicial" em uma "verdade absoluta".
- A Analogia: É como se você entrasse em um restaurante, pedisse uma pizza e gostasse. Daí em diante, você nunca mais entraria em outro restaurante, mesmo que houvesse um buffet incrível ao lado. A IA ficou "viciada" na primeira escolha.
Cenário B (O Tesouro Óbvio): O Planeta X tem muito ouro (75% de chance) e o Y tem pouco (25%).
- O que uma pessoa faria? Focaria no X, mas de vez em quando checaria o Y só para ter certeza de que não perdeu nada.
- O que a IA fez? Ela foi para o X e nunca mais saiu de lá. Ela explorou tão pouco o Y que, às vezes, perdeu oportunidades de ouro que estavam lá. Ela foi tão rígida que não conseguiu se adaptar se as regras mudassem.
- A Analogia: É como um motorista que descobre que a estrada A é rápida. Ele decide que sempre vai usar a estrada A, mesmo que um dia haja um acidente ou uma obra. Ele não olha para o mapa, não checa o GPS. Ele apenas segue em frente, teimosamente.

2. O "Botão de Controle" não Funciona

Os pesquisadores tentaram mudar as "configurações" da IA (chamadas de temperatura e top-p), que são como botões de controle para tornar a IA mais criativa ou mais aleatória.

A Esperança: "Se aumentarmos a criatividade, a IA vai parar de ser teimosa e vai explorar mais!"
A Realidade: Não funcionou. Mesmo quando os pesquisadores "soltaram a corda" para a IA ser mais aleatória, ela continuou agindo de forma rígida. O que mudou foi apenas a quantidade de erros de digitação ou respostas sem sentido, mas a estratégia mental de "não mudar de ideia" permaneceu a mesma.

3. A Causa: Por que elas agem assim?

Usando uma espécie de "raio-X matemático" (modelos computacionais), os autores descobriram que a IA tem dois problemas internos:

Aprendizado Lento: Ela demora muito para atualizar o que aprendeu. Se ela ganha uma moeda no Planeta X, ela não muda sua opinião sobre o Y rapidamente.
Confiança Excessiva (Rigidez): Ela age como se já soubesse a resposta com 100% de certeza, mesmo quando não sabe. É como um aluno que chuta a resposta na primeira prova e, mesmo vendo que errou na segunda, continua chutando a mesma coisa porque "confia" demais na primeira impressão.

4. Por que isso importa para nós (Humanos e IA)?

Aqui está o ponto mais crítico do artigo. Hoje, usamos IAs como conselheiros: para escrever e-mails, dar dicas de saúde, sugerir investimentos ou tomar decisões jurídicas.

O Perigo da "Teimosia Digital": Se a IA toma uma decisão baseada em uma pequena informação inicial e se torna teimosa, ela pode levar você a cometer erros graves.
- Exemplo: Se a IA sugere um investimento baseado em um dado antigo e se recusa a considerar novos dados, você pode perder dinheiro.
- Exemplo: Se a IA diz "este é o melhor caminho" e você, confiando nela, ignora outras opções, você pode ficar preso em uma situação ruim.

A IA não tem "intuição" para saber quando deve mudar de ideia. Ela apenas segue o caminho que começou, criando uma inércia epistêmica (uma preguiça de aprender coisas novas).

Conclusão: O que aprendemos?

Este estudo nos mostra que as IAs atuais não são "pensadores flexíveis" como os humanos. Elas são máquinas de reforço de padrões. Se elas começam com uma tendência (mesmo que pequena), elas a amplificam até virar uma regra rígida.

A lição para o dia a dia: Quando usar uma IA como parceira de decisão, não a trate como um oráculo infalível. Lembre-se de que ela pode estar "presa" em uma ideia inicial. Você precisa ser o piloto que verifica o mapa, questiona a rota e garante que a IA não esteja apenas seguindo o primeiro caminho que encontrou, ignorando o resto do mundo.

Each language version is independently generated for its own context, not a direct translation.

Título: Rigidez em Bandits de LLM com Implicações para Díades Humano-IA

1. Problema e Motivação

O artigo aborda uma lacuna crítica na avaliação de Grandes Modelos de Linguagem (LLMs): enquanto as métricas padrão focam na precisão estática, elas falham em capturar as tendências de decisão que os LLMs trazem para contextos interativos.

O Risco: Quando humanos interagem com sistemas de IA enviesados, seus próprios julgamentos podem tornar-se mais enviesados ao longo do tempo, muitas vezes sem perceber a influência da IA.
A Hipótese: Os LLMs podem exibir vieses robustos de decisão (como rigidez, stubbornness e amplificação de ruído) que não são meramente artefatos de ruído, mas características estruturais de sua política de exploração-exploração.
Objetivo: Utilizar tarefas de "bandit de dois braços" (two-arm bandits) como uma sonda mínima e interpretável para medir viés, controle, exploração e rigidez nos LLMs, independentemente da semântica complexa da tarefa.

2. Metodologia

Design Experimental:

Modelos Testados: DeepSeek, GPT-4.1 e Gemini-2.5 (versões de API).
Configuração: 200 simulações independentes por condição, com 100 tentativas (trials) cada.
Condições de Recompensa:
1. Simétrica: Ambas as opções (braços) têm igual probabilidade de recompensa ( $p_X = 0.25, p_Y = 0.25$ ). Um agente imparcial deveria dividir as escolhas 50/50.
2. Assimétrica: Um braço é superior ( $p_X = 0.75, p_Y = 0.25$ ). O agente deve equilibrar a exploração do melhor braço com a flexibilidade de re-verificar o inferior.
Configurações de Decodificação (Parâmetros): Foram testadas quatro combinações cruzando Temperature e Top-p, mantendo Top-k fixo no padrão do provedor:
1. Strict: Temp=0.0, Top-p=0.5
2. Moderate: Temp=1.0, Top-p=0.5
3. Default-like: Temp=1.0, Top-p=1.0
4. Exploratory: Temp=2.0, Top-p=1.0
Prompt: Os modelos atuavam como exploradores espaciais escolhendo entre dois planetas para encontrar moedas de ouro, com histórico de tentativas anteriores fornecido no prompt.

Análise e Modelagem Computacional:

Métricas Comportamentais: Taxa de recompensa total, taxa de escolha do braço-alvo, probabilidade de troca após perda/vitória (Loss-Shift/Win-Shift), índice de viés de escolha, taxa de teimosia (stubbornness) e índice de rigidez.
Modelagem Hierárquica: Foi ajustado um modelo Rescorla-Wagner com política Softmax hierárquico (implementado em Stan) para explicar os padrões mecanicamente.
- Parâmetros inferidos: Taxa de aprendizado ( $A$ ) e temperatura inversa ( $\tau$ ).
- $A$ controla a atualização de valores baseada em erros de previsão.
- $\tau$ controla a determinismo da escolha (quanto maior, mais determinista/greedy).

3. Resultados Principais

A. Comportamento em Condição Simétrica (Ambiguidade):

Amplificação de Viés Posicional: Em vez de uma distribuição 50/50, os LLMs amplificaram a ordem posicional (geralmente escolhendo a primeira opção, "X") em políticas teimosas de um único braço.
Rigidez Extrema: Mesmo com recompensas aleatórias, os modelos raramente mudavam de braço após uma perda (Loss-Shift próximo de zero).
Robustez aos Parâmetros: O comportamento rígido persistiu através das configurações de temperatura e top-p. O aumento da temperatura (exploração) não corrigiu o viés, mas apenas aumentou a variabilidade ou a taxa de erros de formato (respostas inválidas).

B. Comportamento em Condição Assimétrica (Clareza):

Exploração Rígida: Os modelos convergiram rapidamente para o braço superior, mas com uma rigidez excessiva. Eles exploraram o braço inferior muito pouco, mesmo quando isso poderia melhorar a eficiência a longo prazo (re-verificação).
Desempenho Subótimo: Embora próximos do ótimo, os LLMs ficaram abaixo de um oráculo perfeito, falhando em re-verificar a opção inferior com a frequência ideal.
Colapso na Exploração: No modelo Gemini, a configuração de alta exploração (Temp=2.0) levou a uma queda drástica no desempenho devido a uma alta taxa de respostas inválidas e perda de foco no braço ótimo.

C. Modelagem Computacional (Rescorla-Wagner):

Baixa Taxa de Aprendizado ( $\mu_A$ ): Os modelos exibiram taxas de aprendizado muito baixas (0.09 a 0.33), indicando que eles atualizam suas crenças sobre o valor das opções muito lentamente.
Temperatura Inversa no Teto ( $\mu_\tau$ ): Os modelos operaram com temperaturas inversas extremamente altas (próximas de 5.0, o limite superior do modelo), indicando uma sobre-determinismo na política de escolha.
Conclusão da Modelagem: A combinação de aprendizado lento (que enterra flutuações iniciais) e escolha quase determinista (que impede a exploração) explica tanto a amplificação de ruído (viés) quanto a exploração rígida.

4. Contribuições Chave

Identificação de Rigidez Estrutural: Demonstra que a rigidez e o viés de decisão em LLMs não são apenas ruído estocástico, mas resultam de uma estratégia subjacente de baixa taxa de aprendizado e alta determinismo.
Ineficiência na Alocação de Recursos: Os LLMs são "cegos a oportunidades". Eles não exploram o suficiente quando a informação é valiosa (ambiguidade) e não re-verificam o suficiente quando a clareza permitiria eficiência (assimetria).
Validação de Modelos Cognitivos: Valida o uso de modelos cognitivos (como Rescorla-Wagner) para descrever o comportamento de LLMs, mesmo sem similaridade arquitetural direta com o cérebro humano, focando na funcionalidade do comportamento.
Limitação dos Parâmetros de Decodificação: Mostra que ajustar temperature e top-p não corrige fundamentalmente as tendências de decisão dos modelos; apenas altera a aparência da variabilidade ou introduz erros de formato.

5. Significado e Implicações para Díades Humano-IA

Amplificação de Vieses: A "inércia epistêmica" dos LLMs (persistência de preferências iniciais) pode amplificar pequenos vieses iniciais em certezas injustificadas quando atuam como conselheiros.
Risco de "Lock-in" Prematuro: Em díades humano-IA, a confiança excessiva em recomendações determinísticas pode levar os humanos a se comprometerem prematuramente com uma opção não verificada ou a ignorar alternativas raras mas críticas.
Arquitetura de Prompt como Viés: A ordem das opções no prompt atua como uma "arquitetura de escolha" que molda a saída do modelo, influenciando o raciocínio humano subsequente.
Falsa Sensação de Segurança: A saída determinística e confiante dos LLMs pode ser confundida com correção, tornando as díades vulneráveis a erros sistemáticos que não são detectados pela simples verificação de precisão.

6. Direções Futuras

O artigo sugere expandir os testes para bandits contextuais e não estacionários, paradigmas de decisão social (confiança) e investigar como a formulação da linguagem da IA afeta a transferência de viés para humanos. Além disso, propõe-se refinar os modelos computacionais para incluir canais de erro de formato e políticas conscientes da incerteza.

Rigidity in LLM Bandits with Implications for Human-AI Dyads

1. O Jogo: Duas Situações, Duas Falhas

2. O "Botão de Controle" não Funciona

3. A Causa: Por que elas agem assim?

4. Por que isso importa para nós (Humanos e IA)?

Conclusão: O que aprendemos?

Título: Rigidez em Bandits de LLM com Implicações para Díades Humano-IA

1. Problema e Motivação

2. Metodologia

3. Resultados Principais

4. Contribuições Chave

5. Significado e Implicações para Díades Humano-IA

6. Direções Futuras

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities