Nonstandard Errors in AI Agents

O estudo demonstra que agentes de IA de ponta, ao analisarem os mesmos dados de mercado, produzem resultados empíricos divergentes devido a erros não padrão decorrentes de escolhas analíticas variadas, e que a exposição a exemplos de alto desempenho reduz drasticamente essa dispersão, embora por meio de imitação e não de compreensão genuína.

Ruijiang Gao, Steven Chong Xiao

Publicado 2026-03-18
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pede para 150 chefs de cozinha diferentes, todos usando a mesma receita básica e os mesmos ingredientes, para preparar o prato "Sopa de Legumes" e dizer o quanto de sal ela tem.

Você esperaria que todos dissessem mais ou menos a mesma coisa, certo?

Bem, um novo estudo feito por pesquisadores da Universidade do Texas descobriu que, quando você pede para Inteligências Artificiais (IAs) fazerem o mesmo trabalho de pesquisa científica, o resultado é um caos organizado. Mesmo com os mesmos dados e a mesma pergunta, cada IA chega a uma conclusão diferente.

Aqui está a explicação simples do que aconteceu, usando analogias do dia a dia:

1. O Grande Experimento: 150 "Pesquisadores Robôs"

Os autores criaram 150 agentes de IA autônomos (robôs que escrevem código e analisam dados sozinhos). Eles deram a todos os mesmos dados sobre o mercado de ações (SPY) e pediram para responder a 6 perguntas, como: "O mercado ficou mais eficiente com o tempo?" ou "O volume de negociações aumentou?".

O Resultado: Os robôs não concordaram.

  • Para algumas perguntas, eles concordaram quase perfeitamente.
  • Para outras, as respostas variaram drasticamente. Um grupo disse que o volume de dinheiro subiu 6% ao ano, enquanto outro grupo disse que caiu 5% ao ano. Ambos usaram os mesmos dados!

2. Por que isso acontece? O "Jardim de Caminhos"

A principal causa não é que os robôs estão "errados" ou "loucos". É porque a pergunta era um pouco vaga.

Imagine que a pergunta é: "Quantos carros passaram por aqui?"

  • O Robô A decide contar apenas os carros vermelhos.
  • O Robô B decide contar apenas os carros de luxo.
  • O Robô C decide contar todas as motos e caminhões também.

Todos estão respondendo à pergunta, mas cada um escolheu um "caminho" diferente para medir a realidade. No estudo, isso se chama Erro Não Padrão (NSE). É a incerteza que surge porque cada pesquisador (ou robô) escolhe uma ferramenta de medição diferente.

3. O Estilo de Cada "Raça" de Robô

O estudo descobriu algo fascinante: diferentes modelos de IA têm "personalidades" ou "estilos" fixos.

  • Os robôs do modelo Sonnet eram como chefs que sempre usam sal. Eles preferiam medir a eficiência do mercado de uma maneira específica (autocorrelação).
  • Os robôs do modelo Opus eram como chefs que sempre usam pimenta. Eles insistiam em medir de outra forma (razão de variância).

Não importa quantas vezes você rodasse o mesmo robô, ele tendia a escolher o mesmo "tempero". Isso significa que a IA não é neutra; ela carrega os preconceitos de como foi treinada.

4. A Crítica dos Colegas Não Funciona

Os pesquisadores tentaram uma segunda etapa: fizeram os robôs lerem os trabalhos uns dos outros e darem críticas (como um revisor de artigos).

  • O que aconteceu? Nada mudou. Os robôs continuaram com suas opiniões.
  • A analogia: Imagine pedir para 150 pessoas que gostam de pizza de abacaxi lerem críticas de quem odeia pizza de abacaxi. Elas podem mudar a receita um pouco, mas não vão parar de gostar de abacaxi. A crítica escrita não convenceu os robôs a mudarem sua "escolha de caminho".

5. O Poder (e o Perigo) de Seguir a Turma

Na terceira etapa, os pesquisadores mostraram aos robôs os 5 melhores trabalhos que os outros robôs haviam feito.

  • O que aconteceu? A mágica aconteceu. Os robôs que estavam no "caminho errado" (na visão deles) mudaram de ideia e copiaram os líderes.
  • O resultado: A variação entre eles caiu drasticamente (de 80% a 99% em alguns casos).
  • O problema: Eles não mudaram porque acharam a nova ideia melhor. Eles mudaram por imitação. Se os "líderes" tivessem escolhido o caminho errado, todos teriam seguido o erro. É como se todos os alunos de uma sala copiassem a resposta do aluno que o professor elogiou, sem entender se a resposta estava certa.

6. A Lição para o Futuro

O estudo nos dá três avisos importantes:

  1. Não confie em apenas uma IA: Pedir para uma IA fazer uma análise e aceitar o resultado como "verdade absoluta" é perigoso. A resposta pode depender apenas de qual "modelo" de IA você usou.
  2. A IA espelha nossa confusão: A variação nos resultados da IA não é um defeito do robô, mas um espelho da ambiguidade da ciência humana. Se até os robôs não conseguem concordar sobre como medir algo, é porque a pergunta em si é difícil de definir.
  3. Use o "Multiverso": Em vez de pedir uma resposta, os pesquisadores sugerem que devemos pedir para várias IAs rodarem o mesmo experimento de formas diferentes e olharmos para a faixa de todas as respostas possíveis. Isso nos dá uma ideia real da incerteza, em vez de uma falsa certeza.

Resumo final:
A IA é uma ferramenta poderosa, mas não é um oráculo infalível. Ela pode nos ajudar a ver todas as possíveis respostas para uma pergunta, mas cabe a nós, humanos, decidir qual resposta faz mais sentido no mundo real. A "verdade" não é um ponto único, mas muitas vezes um leque de possibilidades que a IA nos ajuda a explorar.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →