Why Johnny Can't Use Agents: Industry Aspirations… — Explicação em linguagem simples

Autores originais: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

Publicado 2026-05-05✓ Author reviewed ⓘ

📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você acabou de comprar um mordomo robô de última geração, totalmente novo. Os comerciais da empresa mostram-o fazendo tudo perfeitamente: planejando suas férias inteiras, criando uma apresentação de slides para seu chefe e pesquisando sua próxima mudança de carreira, tudo enquanto você toma café e relaxa. O robô é comercializado como um "Agente de IA" — um parceiro inteligente que toma a iniciativa e realiza tarefas para você.

Mas quando você realmente o liga e tenta usá-lo, as coisas ficam confusas. Você pode se sentir confuso, frustrado ou inseguro sobre se o robô está realmente ajudando ou apenas criando um caos maior.

Este artigo, intitulado "Por que Johnny Não Consegue Usar Agentes", investiga exatamente essa lacuna entre as promessas brilhantes do marketing dos agentes de IA e a realidade confusa de usá-los hoje. Os pesquisadores fizeram duas perguntas principais:

O que as empresas estão realmente vendendo? (O Hype)
O que acontece quando pessoas comuns tentam usá-los? (A Realidade)

Abaixo está uma análise de suas descobertas usando analogias simples.

1. Os Três Tipos de "Mordomos Robô" (O Hype)

Os pesquisadores analisaram 102 produtos diferentes vendidos como "Agentes de IA" e os classificaram em três categorias com base no que as empresas dizem que eles fazem:

O Orquestrador (O Agente de Viagens): Estes agentes deveriam sair, clicar em botões em sites, reservar voos e preencher formulários para você. Eles "orquestram" uma série de ações no mundo real.
O Criador (O Artista): Estes agentes deveriam criar coisas para você, como apresentações de slides, sites ou documentos. Eles focam na aparência e no formato do produto final.
O Gerador de Insights (O Pesquisador): Estes agentes deveriam vasculhar a internet, encontrar informações e fornecer um resumo ou uma recomendação. Eles são seu bibliotecário e analista pessoal.

2. O Experimento: Colocando "Johnny" à Prova

Para verificar se esses robôs realmente funcionam, os pesquisadores recrutaram 31 pessoas comuns (eles chamam essa persona de "Johnny", uma referência a um antigo estudo sobre por que pessoas comuns não conseguiam usar criptografia). Esses participantes estavam familiarizados com chatbots, mas nunca haviam usado um agente de IA capaz de controlar um computador.

Eles deram a "Johnny" três tarefas específicas:

Orquestração: Planejar uma viagem de férias de 3 dias (reservando voos e hotéis).
Criação: Criar uma apresentação de slides de 10 minutos.
Insight: Descobrir como gastar um orçamento de US$ 2.000 para crescimento pessoal.

Eles usaram dois agentes comerciais populares (chamados Operator e Manus) para ver como os humanos se saíram.

3. Os Cinco Grandes Problemas (A Realidade)

Embora os participantes geralmente estivessem impressionados com a tecnologia e frequentemente conseguissem concluir as tarefas, eles encontraram cinco barreiras principais que tornaram a experiência frustrante.

Barreira 1: O Mal-Entendido da "Leitura de Mente"

A Analogia: Imagine que você contrata um novo assistente. Você diz: "Faça-me um sanduíche". Você espera um sanduíche de presunto. O assistente traz uma tigela de farinha e uma faca porque não sabia que você queria presunto. Você fica irritado, mas percebe que não especificou "presunto".
A Realidade: Os usuários não sabiam quanto detalhe dar à IA. Alguns achavam que precisavam escrever um manual perfeito, passo a passo, para o robô. Outros achavam que o robô podia ler suas mentes. Como a IA não explicava como estava pensando, os usuários sentiam que estavam "jogando" com seu primeiro comando. Se errassem, o robô seguiria pelo caminho errado, e o usuário se sentia preso.

Barreira 2: O Salto do "Confie em Mim"

A Analogia: Você pede a um estranho para segurar sua carteira enquanto amarra o cadarço do sapato. Ele diz: "Volto já" e foge com sua carteira. Você se sente inseguro.
A Realidade: Os agentes de IA frequentemente pediam coisas sensíveis (como fazer login na sua conta do Google) ou começavam a tomar decisões (como reservar um hotel) sem perguntar: "Você quer um quarto com piscina ou com vista?". Os usuários sentiam que precisavam confiar cegamente no robô, mas o robô não ganhava essa confiança explicando suas escolhas ou pedindo permissão primeiro.

Barreira 3: O Parceiro de Dança "Tamanho Único"

A Analogia: Imagine dançar com um parceiro que só conhece um estilo de dança. Se você quiser valsar, ele tenta fazer breakdance. Se você quiser parar, ele continua girando.
A Realidade: As pessoas têm estilos de trabalho diferentes. Algumas querem fazer o trabalho pesado e apenas verificar o trabalho da IA; outras querem que a IA faça tudo. Os agentes estavam muito ansiosos para apenas "fazer o trabalho" sem verificar. Se um usuário quisesse pausar ou mudar o plano, o agente frequentemente não ouvia ou tornava difícil parar, deixando o usuário com a sensação de ter perdido o controle da dança.

Barreira 4: O "Jato de Água" de Informações

A Analogia: Você pede a um amigo instruções. Em vez de dizer "Vire à esquerda", eles dão uma palestra de 20 minutos sobre a história da rua, os padrões de tráfego e o clima, enquanto você tenta dirigir.
A Realidade: Os agentes eram muito falantes. Eles mostravam cada passo que davam, cada resultado de pesquisa e todo o processo de pensamento. Para alguns usuários, isso era útil; para outros, era ruído avassalador. Era difícil encontrar as partes importantes porque os "logs" eram muito densos e confusos.

Barreira 5: O Robô que Não Sabe que Está Preso

A Analogia: Você pede a um GPS para encontrar uma rota. Ele fica preso em um loop, tentando dirigir através de uma parede, e continua dizendo "Recalculando" sem nunca dizer: "Ei, não consigo passar por aqui, você precisa dirigir manualmente".
A Realidade: Quando a IA ficava presa (como tentando fazer login em um site que bloqueava robôs), muitas vezes não percebia que estava falhando. Ela apenas congelava ou repetia a mesma ação uma e outra vez. Falta-lhe a "autoconsciência" para dizer: "Estou preso, por favor, ajude-me". Os usuários tinham que descobrir o erro sozinhos, o que derrotava o propósito de ter um agente.

A Conclusão

O artigo conclui que, embora os agentes de IA sejam poderosos e possam fazer coisas incríveis, eles ainda não estão prontos para o uso por pessoas comuns.

A tecnologia é como um motor de carro de corrida que não foi instalado em um carro com volante, freios ou painel. A indústria está vendendo o motor (a capacidade de realizar tarefas), mas os usuários precisam do carro (a capacidade de controlar, confiar e entender o motor).

Até que esses agentes possam entender melhor as expectativas humanas, explicar seus erros e nos permitir assumir o volante quando as coisas dão errado, "Johnny" continuará lutando para usá-los efetivamente.

Resumo Técnico: Por Que o Johnny Não Consegue Usar Agentes: Aspirações da Indústria vs. Realidades dos Usuários com Agentes de IA

Declaração do Problema
O artigo aborda uma crescente imprecisão quanto à definição, capacidades e usabilidade de "agentes de IA". Enquanto a indústria de tecnologia comercializa esses sistemas como parceiros inteligentes capazes de execução autônoma e multi-etapa, há uma falta de compreensão sistemática sobre como os usuários finais realmente interagem com eles. Avaliações anteriores de agentes de IA focaram amplamente em benchmarks técnicos e ideais quantificáveis (por exemplo, taxas de conclusão de tarefas em ambientes controlados), frequentemente negligenciando os fatores humanos de delegação, supervisão e recuperação. Os autores postulam que as capacidades comercializadas frequentemente divergem das realidades dos usuários, criando atrito que impede a adoção eficaz por usuários iniciantes. O problema central é a lacuna entre as aspirações da indústria (o que os agentes são comercializados para fazer) e as realidades dos usuários (os desafios enfrentados ao tentar usá-los para as tarefas anunciadas).

Metodologia
A pesquisa emprega uma abordagem de duas frentes para investigar a desconexão entre a estruturação da indústria e a experiência do usuário:

Revisão Sistemática (PQ1): Os autores construíram uma taxonomia de capacidades comercializadas de agentes de IA analisando $N=102$ produtos comerciais obtidos a partir de diretórios agregadores (por exemplo, AI Agent Directory, Product Hunt) e pesquisas na web. Eles realizaram uma análise qualitativa de conteúdo indutiva em materiais de marketing para destilar casos de uso anunciados em três categorias amplas: Orquestração (atuar em interfaces gráficas de usuário em nome do usuário), Criação (gerar artefatos estruturados como apresentações ou código) e Insight (suportar pesquisa, síntese e recomendações).
Avaliação de Usabilidade (PQ2): Os autores conduziram um estudo de usabilidade com protocolo de "pensar em voz alta" com $N=31$ participantes. Os participantes eram iniciantes em sistemas operacionalmente agênticos, mas usuários frequentes de chatbots de IA generativa. Eles tentaram tarefas representativas de cada uma das três categorias da taxonomia usando duas plataformas comerciais populares de sistemas operacionalmente agênticos: OpenAI Operator e Manus.
- Tarefas: Planejamento de Férias (Orquestração), Criação de Slides (Criação) e Orçamento de Bolsas para Crescimento Profissional/Pessoal (Insight).
- Procedimento: Cada sessão durou aproximadamente uma hora, consistindo em duas tentativas de tarefa de 20 minutos seguidas por entrevistas semiestruturadas. O estudo coletou gravações de tela/áudio, pontuações da Escala de Usabilidade do Sistema (SUS) e transcrições de entrevistas.
- Análise: Os dados foram analisados usando análise temática reflexiva para identificar barreiras recorrentes e desafios de usabilidade.

Principais Contribuições
O artigo faz três contribuições primárias para o campo da Interação Humano-Computador (IHC) e IA:

Uma Taxonomia de Capacidades Comercializadas: Um framework destilado que categoriza casos de uso de agentes de IA envisioned pela indústria em Orquestração, Criação e Insight, esclarecendo como o rótulo "agente" é atualmente aplicado no mercado comercial.
Identificação Empírica de Barreiras de Usabilidade: Um relato de cinco barreiras críticas de usabilidade que usuários iniciantes enfrentam ao interagir com agentes de IA comerciais, indo além de métricas simples de conclusão de tarefas para avaliar a qualidade do processo de delegação e colaboração.
Implicações para Design e Avaliação: Um conjunto de implicações concretas para projetar e avaliar sistemas agênticos, incluindo eixos específicos para avaliação (por exemplo, frequência de intervenção, tempo para recuperação, taxa de travamento/loop) que complementam os benchmarks técnicos existentes.

Principais Resultados e Descobertas
Embora os participantes tenham sido geralmente bem-sucedidos na conclusão das tarefas atribuídas e relatado altas pontuações na Escala de Usabilidade do Sistema (SUS) (indicando impressão geral de utilidade), o estudo revelou pontos de atrito significativos que impedem o uso ótimo. Os autores identificaram cinco barreiras críticas de usabilidade:

Desalinhamento de Modelo Mental: Os usuários lutaram para entender as capacidades do agente, o nível de detalhe necessário nos prompts e o papel do agente durante a execução. Isso levou ao "jogo de azar com prompts" (incerteza sobre quanto especificar) e confusão quanto a mecanismos de interação como "Assumir" (intervenção do usuário). Os usuários construíam modelos mentalmente de forma reativa a partir dos resultados, em vez de proativamente a partir de sinais do sistema.
Pressupostos Prematuros de Confiança: Os agentes frequentemente presumiam confiança em contextos sensíveis (por exemplo, manuseio de credenciais, elaboração de planos de viagem) sem estabelecer credibilidade ou confirmar a intenção do usuário. Os usuários expressaram desconfiança quanto a alucinações, gerenciamento de senhas e a tendência do agente de agir sem esclarecer preferências pessoais.
Incompatibilidade de Estilo de Colaboração: Os agentes falharam em acomodar estilos de colaboração diversos. Alguns usuários desejavam envolvimento profundo e controle granular (atuando como "parceiros de pensamento"), enquanto outros queriam envolvimento mínimo. Os agentes tendiam a ser ferramentas de execução excessivamente ávidas, assumindo que os usuários queriam supervisão mínima, e careciam de mecanismos para orientação eficaz durante a tarefa ou recuperação de erros.
Sobrecarga de Comunicação: Os usuários enfrentaram dificuldades em analisar as saídas dos agentes. Havia um espectro de preferências quanto à visibilidade do progresso; alguns achavam logs detalhados avassaladores, enquanto outros sentiam que faltava supervisão necessária. A sobrecarga de comunicação frequentemente tornava difícil articular a intenção ou identificar onde o agente estava no fluxo de trabalho.
Comportamento Metacognitivo Fraco: Os agentes careciam da capacidade de autoavaliar seu progresso, limitações ou qualidade de saída. Quando os agentes encontravam erros ou travamentos, frequentemente falhavam em reconhecer o bloqueio, levando a loops repetitivos ou falhas silenciosas. Os usuários foram forçados a cobrir essas lacunas metacognitivas, frequentemente lutando para se recuperar de modos de falha opacos.

Significado e Alegações
O artigo alega que a transição da interação baseada em chat para sistemas operacionalmente agênticos muda fundamentalmente a superfície de usabilidade. Em chatbots, um prompt ruim pode resultar em uma resposta de texto subótima; em agentes, a mesma ambiguidade pode acionar execuções multi-etapa demoradas e intensivas em recursos com efeitos colaterais no mundo real (por exemplo, reservar voos, modificar arquivos) antes que o usuário possa intervir.

Os autores argumentam que os requisitos estruturais para sistemas agênticos — delegação, supervisão, intervenção e recuperação — não podem ser resolvidos apenas esperando usuários mais capazes ou modelos mais poderosos. Em vez disso, o design desses sistemas deve abordar explicitamente as barreiras identificadas ao:

Calibrar para as preferências do usuário quanto à proatividade e comunicação.
Melhorar a autoavaliação e transparência do agente (por exemplo, expor confiança, detectar travamentos).
Suportar entradas não textuais e mecanismos de iteração precisos.
Redefinir métricas de avaliação para incluir dimensões centradas no ser humano, como frequência de intervenção e tempo para recuperação.

O estudo conclui que, embora os agentes atuais mostrem promessa, lacunas significativas de usabilidade permanecem entre as aspirações da indústria e as realidades dos usuários finais iniciantes, necessitando de uma mudança no foco de design da pura capacidade para a confiabilidade colaborativa.

Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agents