Each language version is independently generated for its own context, not a direct translation.

A Grande Ideia: O Problema do "Cardápio Antigo"

Imagine que você entra em um restaurante de alto padrão em 2026. Você pergunta ao garçom: "O que esta cozinha pode fazer?". O garçom entrega-lhe um cardápio, mas é um cardápio de 2023. Ele lista pratos feitos com ingredientes que não estão mais disponíveis e técnicas culinárias que foram substituídas por métodos mais rápidos e inteligentes.

Ao ler o cardápio, você pode concluir: "Este restaurante não consegue fazer comida excelente". Mas isso não é verdade. O restaurante pode fazer comida excelente; eles apenas não atualizaram o cardápio que você está lendo.

Este artigo argumenta que a pesquisa acadêmica sobre IA está fazendo exatamente isso.

Os pesquisadores estão testando modelos de IA que já são "antigos" (de um ou dois anos atrás) e os testam de maneiras "básicas" (sem usar seus recursos mais novos e inteligentes). Em seguida, escrevem artigos dizendo: "A IA não consegue fazer X". Mas, como não testaram a IA atual nem usaram suas configurações atuais, a conclusão é enganosa. É como julgar uma Ferrari de 2026 dirigindo um Ford Pinto de 2023.

As Três Maneiras pelas quais o "Cardápio" está Desatualizado

Os autores descobriram que a lacuna entre o que a IA pode fazer agora mesmo e o que os artigos dizem que ela pode fazer é enorme. Eles dividiram essa lacuna em três partes:

1. O Atraso Temporal (O Problema das "Notícias de Ontem")

A Analogia: Imagine um revisor de tecnologia testando um novo smartphone. Mas, em vez de testar o telefone lançado hoje, ele testa um modelo lançado há 18 meses.
A Descoberta: O artigo mediano neste estudo testou um modelo de IA que estava aproximadamente uma geração principal atrás da melhor IA disponível na época. Se a melhor IA é um "Super-Cérebro", os artigos estavam testando principalmente um "Smartphone" do ano anterior.

2. O Atraso de Nível (O Problema da "Versão Orçamento")

A Analogia: Imagine que uma montadora lança dois carros: um modelo "Pro" com motor turbo e um modelo "Mini" com motor padrão. Um revisor compra o "Mini" porque é mais barato, dirige-o pelo quarteirão e escreve um relatório dizendo: "Esta marca de carro é lenta". Eles nunca dirigiram o "Pro".
A Descoberta: Mesmo quando os pesquisadores usaram a "família" certa de IA (como GPT ou Claude), eles frequentemente testaram a versão mais barata e fraca (como "Mini" ou "Flash"), enquanto uma versão "Pro" ou "Opus" muito mais forte já estava disponível.

3. O Atraso de Configuração (O Problema das "Luzes Apagadas")

A Analogia: Imagine que você está testando um robô de alta tecnologia que pode pensar, usar ferramentas e resolver quebra-cabeças. Mas você o testa com o interruptor de "pensamento" desligado, a caixa de "ferramentas" trancada, e você só faz uma pergunta simples sem dar nenhuma dica. Você então conclui: "Este robô é inútil".
A Descoberta: Esta é a maior surpresa. A IA moderna possui um "modo de raciocínio" (como um processo de pensamento profundo) e pode usar ferramentas (como busca na web ou editores de código).
- Apenas 3,2% dos artigos que testaram esses modelos de "pensamento" realmente disseram se ligaram ou desligaram o modo de pensamento.
- A maioria dos artigos testou a IA no modo "zero-shot" (apenas fazendo uma pergunta uma vez) em vez de dar tempo para pensar ou ferramentas para ajudar.
- Resultado: Eles estão testando a IA com as mãos amarradas nas costas e, em seguida, alegando que ela não consegue fazer o trabalho.

A Armadilha da "Generalização"

O artigo descobriu que 52,5% dos resumos (as breves sínteses no início dos artigos) cometeram um erro perigoso.

O que fizeram: Testaram uma IA específica, mais antiga e mais fraca.
O que escreveram: Concluíram que "A IA" (como categoria inteira) não consegue realizar a tarefa.
A Analogia: É como testar uma bicicleta específica e quebrada e escrever uma manchete: "Bicicletas são perigosas". A manchete ignora o fato de que eles testaram apenas uma bicicleta quebrada, não todas as bicicletas.

Como essas manchetes são citadas por médicos, advogados e formuladores de políticas, o mundo começa a acreditar que a IA é pior do que realmente é.

Por Que Isso Acontece? (Não é Malícia)

Os autores têm o cuidado de dizer: Os pesquisadores não estão mentindo. Eles estão fazendo o melhor possível com as ferramentas que têm.

Dinheiro: Executar os modelos de IA mais novos e inteligentes é incrivelmente caro. Pesquisadores acadêmicos frequentemente não podem pagar pelas versões "Pro", então usam as versões gratuitas ou baratas.
Tempo: Leva anos para publicar um artigo. No momento em que um artigo é impresso, o mundo da IA já avançou.
Hábito: As regras para escrever esses artigos foram criadas antes que a IA tivesse "modos de pensamento" ou "kits de ferramentas". Os pesquisadores estão seguindo regras antigas que não se encaixam na nova tecnologia.

A Solução: Um Novo Sistema de "Rótulo"

O artigo propõe uma solução simples chamada versio-ai. É como um novo rótulo nutricional para artigos de IA. Antes de um artigo ser publicado, os autores devem declarar claramente:

Exatamente qual modelo eles usaram (por exemplo, "GPT-5.5 Pro", não apenas "GPT").
Quando eles o testaram.
Como eles o testaram (Eles ligaram o modo de "pensamento"? Deram ferramentas a ele?).

Se essas três coisas estiverem ausentes, o artigo deve ser rejeitado. Isso não torna a IA mais inteligente, mas impede que leiamos o "cardápio antigo" e pensemos que o restaurante parou de cozinhar.

Resumo

A literatura acadêmica está mostrando atualmente uma sombra do que a IA pode fazer, e não a coisa real. É uma sombra projetada por modelos mais antigos e mais fracos, testados de maneiras básicas. A lacuna entre essa sombra e a IA real está ficando maior a cada ano. O artigo argumenta que, a menos que os pesquisadores comecem a ser mais específicos sobre exatamente o que testaram, o mundo continuará subestimando do que a IA é capaz.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Atraso de Fronteira: Uma Auditoria Bibliométrica da Má Representação de Capacidades na Avaliação Acadêmica de IA

1. Declaração do Problema

A literatura do domínio aplicado que avalia Modelos de Linguagem de Grande Porte (LLMs) em campos como medicina, direito, programação, educação e raciocínio científico representa sistematicamente de forma equivocada as capacidades atuais da IA. A auditoria identifica uma desconexão estrutural entre os sistemas testados em artigos acadêmicos e a "fronteira" contemporânea das capacidades de IA.

Essa desconexão, denominada lacuna de elicitação de publicação, surge de três fatores cumulativos:

Atraso Temporal: Artigos avaliam modelos lançados meses ou anos antes da data de publicação, perdendo gerações subsequentes.
Atraso de Nível: Artigos frequentemente testam níveis mais fracos de uma família de modelos (por exemplo, versões "mini" ou "Flash"), enquanto irmãos mais fortes (por exemplo, "Pro" ou "Opus") já estão públicos.
Especificação Insuficiente de Configuração: Seções de métodos frequentemente omitem detalhes críticos de elicitação (modo de raciocínio, acesso a ferramentas, andaime, parâmetros de amostragem), levando a uma avaliação "ingênua" que falha em capturar o potencial total do modelo.

A consequência é que resumos e citações subsequentes generalizam resultados específicos e insuficientemente especificados para a classe de "IA", criando uma narrativa enganosa para clínicos, formuladores de políticas e consumidores downstream sobre o que a IA pode fazer atualmente.

2. Metodologia

O estudo é uma auditoria bibliométrica pré-registrada conduzida em um corpus de literatura acadêmica abrangendo o período de 1º de janeiro de 2022 a 1º de abril de 2026.

Construção do Corpus

Fonte: Instantâneo do OpenAlex (março de 2026).
Escopo: 112.303 registros correspondidos por meio de palavras-chave ("LLM", "GPT", "Claude", etc.) em cinco domínios: medicina, direito, programação, educação e raciocínio científico.
Inclusão: 18.574 artigos atenderam aos critérios de admissibilidade (avaliação empírica de um LLM nomeado em uma tarefa aplicada, resultados quantitativos, revisão por pares ou pré-impressão de fronteira).
Auditoria de Cobertura: Uma amostra aleatória estratificada de um pool residual estimou a taxa de captura em ~80%, sem viés significativo nos resultados primários (magnitude da lacuna, valência, enquadramento).

Estrutura de Medição

A auditoria pontua artigos contra três dimensões:

Dimensão de Capacidade: Medida por meio do Índice de Capacidades Epoch AI (eci). O resultado primário é o eci_gap, definido como a diferença entre a fronteira contemporânea (modelo de maior eci disponível na data de avaliação) e o modelo testado no artigo.
- Imputação: Se a data de avaliação não for divulgada, é imputada como max(data_publicação - 180 dias, data_lançamento_modelo).
- Sensibilidade: Os resultados são validados contra escalas independentes: Chatbot Arena Elo e o índice de inteligência Artificial Analysis.
Dimensão de Elicitação: Avalia a divulgação de detalhes de configuração (modo de raciocínio, esforço de pensamento, uso de ferramentas, andaime, arquitetura multiagente, estratégia de prompt).
Dimensão Interpretativa: Mede se as conclusões generalizam do modelo específico testado para a classe de "IA" (ai_generic enquadramento) e se comparadores humanos/profissionais estão presentes.

Extração e Validação

Pipeline: Extração automatizada usando um LLM de fronteira (V4F-Max) para classificação de inclusão e extração de campos, validada contra um padrão-ouro humano duplo (n=300) e tríades cruzadas de famílias (GPT-5, Claude Opus, Gemini).
Validação: As pontuações de $\kappa$ de Cohen excederam os limiares pré-registrados (por exemplo, 0,896 para o modelo primário, 0,767 para a valência da conclusão).
Teste de Hipóteses: Testes confirmatórios pré-registrados (H1, H3, H6) utilizam correção step-down de Holm ( $\alpha=0,05$ ) contra nulos estruturais zero. Magnitudes descritivas (H2, H4, H5) utilizam intervalos de confiança simultâneos de 95%.

3. Principais Contribuições

Quantificação da Lacuna de Elicitação de Publicação: A auditoria fornece a primeira medição pré-registrada e transversal de domínios da distância entre avaliações acadêmicas e a fronteira, decompondo-a em componentes temporais, de nível e de configuração.
Definição de "Falha Composta": Opera um métrico para artigos que falham simultaneamente em capacidade (atraso em relação à fronteira), elicitação (detalhes de configuração ausentes) e interpretação (generalização excessiva de alegações).
Lista de Verificação versio-ai v1.2: Uma lista de verificação de relatórios com 13 itens projetada para estender estruturas existentes (CONSORT-AI, TRIPOD-LLM, etc.) ao exigir a divulgação da "superfície de elicitação" (instantâneo do modelo, data de avaliação, modo de raciocínio, acesso a ferramentas, etc.).
Ferramenta frontierlag: Um pacote Python ao vivo e uma ferramenta web que permitem aos usuários inserir um DOI e receber um relatório de auditoria detalhando a distância do artigo em relação à fronteira e seu status de divulgação.

4. Principais Resultados

Atraso Significativo e em Aumento (H1, H2):
- O artigo mediano avalia um modelo +10,85 eci atrás da fronteira contemporânea. Essa lacuna é aproximadamente 1,4× a distância entre Claude Sonnet 3.7 e Opus 4.5 (um grande salto de nível).
- A lacuna está aumentando a uma taxa de +5,53 eci/ano, indicando que a literatura está ficando atrás da fronteira mais rápido do que os ciclos de publicação podem renovar o corpus.
Atraso de Nível (H3):
- Entre os artigos em que um irmão mais forte estava público dentro de 90 dias, o atraso de nível mediano é +12,63 eci.
Especificação Insuficiente de Configuração (H4):
- Apenas 3,2% dos resumos e 21,2% dos textos completos divulgam o status do modo de raciocínio para modelos capazes de raciocínio.
- As datas de avaliação são divulgadas em apenas 18,4% dos artigos de texto completo.
Generalização em Nível de Classe (Descritivo):
- 52,5% dos resumos enquadram conclusões no nível de "IA" em vez do modelo específico testado.
- Essa tendência está aumentando, com as chances aumentando em OR = 1,23 por ano.
Taxa de Falha Composta (H5):
- Sob uma operacionalização conservadora, 9,2% dos artigos admissíveis falham em todas as três dimensões da auditoria simultaneamente.
- Sob uma análise de sensibilidade inclusiva, essa taxa sobe para 38,3%.
Assimetria de Valência (H6):
- Não foi encontrada correlação significativa entre a magnitude do atraso e a valência (positiva/negativa) da conclusão do artigo.

5. Significado e Alegações

O artigo afirma que o registro acadêmico, em agregado, está cada vez mais incapaz de dizer aos leitores sobre qual IA está falando.

Estrutural, Não Individual: A auditoria declara explicitamente que não acusa autores individuais de má-fé. O padrão é um equilíbrio previsível de ciclos de revisão por pares, acesso a APIs com restrições de custo e normas de relatórios herdadas de uma era pré-modelos de raciocínio.
Má Representação vs. Verdade: A auditoria mede "distância da fronteira", não "distância da verdade". Não afirma que reexecutar esses experimentos em modelos de fronteira necessariamente reverteria os resultados, mas sim que as alegações publicadas estão desancoradas do estado atual da arte.
Impacto Downstream: As descobertas sugerem que resumos de políticas, decisões de aquisição clínica e pesquisas de segurança que citam esses artigos estão operando com dados desatualizados e insuficientemente especificados.
Remédio: O artigo propõe uma responsabilidade compartilhada entre autores, editores e financiadores:
- Autores: Adotar a lista de verificação versio-ai para divulgar a superfície de configuração.
- Editores/Revisores: Exigir a divulgação de instantâneos de modelos, datas de avaliação e modos de raciocínio.
- Financiadores: Condicionar bolsas à divulgação e fornecer orçamentos de acesso a API para permitir que grupos acadêmicos avaliem configurações próximas à fronteira, em vez de depender exclusivamente de alternativas mais baratas e desatualizadas.

O artigo conclui que, embora nenhum artigo individual esteja "respondendo erradamente à sua própria pergunta", a literatura coletiva apresenta uma visão distorcida da capacidade de IA que requer intervenção estrutural para correção.

Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation