Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas um pouco misterioso. Você quer saber duas coisas sobre ele:

O que ele é capaz de fazer? (Por exemplo: ele consegue resolver problemas de matemática complexos?)
O que ele tem tendência a fazer? (Por exemplo: se alguém o pressionar, ele vai mentir ou fazer algo perigoso?)

Hoje, quando avaliamos Inteligência Artificial (IA), fazemos isso de um jeito muito simplista. É como se, para saber se seu amigo é bom em matemática, você apenas o fizesse responder a 10 perguntas aleatórias de um livro velho e, se ele acertar 8, dissesse: "Ok, ele tem 80% de capacidade matemática".

O artigo que você pediu para explicar diz que isso está errado. E não é apenas um detalhe técnico; é um erro fundamental que pode nos levar a confiar em IAs perigosas ou a subestimar as inteligentes.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: Medir "Ação" em vez de "Potencial"

Os autores dizem que estamos confundindo o que a IA faz agora (desempenho) com o que ela é capaz de fazer em qualquer situação (disposição).

A Analogia do Copo de Vidro:
Imagine um copo de vidro.
- Se você o deixa na mesa, ele não quebra.
- Se você o joga no chão, ele quebra.
- A "fragilidade" do copo não é o fato de ele estar quebrado agora. A fragilidade é uma propriedade interna que diz: "Se eu for atingido com força X, eu quebro com probabilidade Y".

Hoje, os testes de IA funcionam assim: eles jogam o copo no chão uma vez, veem se quebra, e dizem: "Este copo é frágil". Mas eles não medem quanta força é necessária para quebrá-lo, nem testam se ele quebra se for atingido por um martelo, uma pedra ou uma gota d'água. Eles apenas olham para o resultado final.

2. Por que os Testes Atuais (Benchmarks) Falham

Atualmente, as empresas de IA usam "Benchmarks" (listas de testes padronizados) e "Red Teaming" (tentativas de hackear a IA para ver se ela falha).

O Problema do "Menu de Teste":
Imagine que você quer medir a força de um atleta. Em vez de fazer ele correr em diferentes terrenos, com diferentes pesos e climas, você o faz correr apenas em uma pista de atletismo perfeita, 5 vezes.
- Se ele correr bem, você diz: "Ele é forte".
- Mas e se ele for fraco em subir montanhas? E se ele desmaiar no calor?
- O teste atual não mede a capacidade real (a disposição), apenas a performance em um cenário específico e limitado.
O Problema da "Tentação" (Propensão):
Para saber se uma IA é perigosa, os pesquisadores tentam "enganá-la" com perguntas maliciosas.
- É como tentar descobrir se um amigo é honesto apenas perguntando uma vez: "Você roubaria um banco?". Se ele disser "não", você acha que ele é honesto.
- Mas e se você oferecer 1 milhão de dólares? E se você disser que é para salvar a vida de alguém? A "propensão" (tendência) dele muda dependendo da situação (o incentivo), não apenas da pergunta. Os testes atuais não medem como essa tendência muda conforme a pressão aumenta.

3. A Solução: A "Ciência da Medição"

Os autores propõem que precisamos tratar a IA como um cientista trata a física. Para medir algo de verdade, você precisa de três passos:

Definir o que você está medindo: Não é a "IA inteira" (com filtros de segurança e humanos por trás), mas sim o "cérebro" da IA (o modelo base). É como medir a fragilidade do vidro, não a fragilidade do vidro dentro de uma caixa de isopor.
Identificar as variáveis que importam: Em vez de apenas jogar perguntas aleatórias, você precisa entender o que torna uma pergunta difícil.
- Exemplo: Para matemática, é o número de passos? É o tamanho dos números?
- Exemplo: Para comportamento perigoso, é o quanto a pessoa pede? É se a pessoa parece desesperada?
Mapear a Curva de Reação: Em vez de dar uma nota única (ex: 80%), você cria um gráfico.
- "Se a dificuldade for baixa, a IA acerta 100%."
- "Se a dificuldade for média, ela acerta 50%."
- "Se a pressão for alta, ela começa a mentir."
- Isso cria um mapa de comportamento. Você sabe exatamente onde a IA vai falhar, mesmo que você nunca tenha testado aquele cenário específico antes.

4. Por que isso é importante?

Se continuarmos medindo apenas com testes simples (como tirar uma média de notas), corremos dois riscos graves:

Falsa Segurança: Podemos achar que uma IA é segura porque ela passou em 100 testes de "não matar pessoas". Mas, se colocarmos ela em uma situação de pressão extrema que nunca foi testada, ela pode falhar catastróficamente. É como achar que um carro é seguro porque não bateu em nenhum teste de colisão, mas nunca testamos se ele freia na chuva.
Não conseguimos prever o futuro: Se uma IA ficar mais inteligente que os humanos, os testes atuais (feitos por humanos) vão quebrar. Não podemos confiar em testes que dependem de humanos para corrigir as respostas se a IA já for melhor que nós. A nova ciência de medição permite prever o comportamento em situações que ainda não existem, baseando-se na lógica causal, não apenas em dados passados.

Resumo em uma frase

O artigo diz que precisamos parar de tratar a Inteligência Artificial como um aluno que faz uma prova de múltipla escolha e começar a tratá-la como um sistema físico complexo, onde precisamos entender as leis que regem seu comportamento (o que o faz acertar, o que o faz falhar e o que o faz agir mal) para poder medir sua verdadeira natureza, e não apenas sua performance momentânea.

É a diferença entre dizer "este copo não quebrou hoje" e dizer "este copo quebra se receber 50 Newtons de força". O primeiro é uma observação; o segundo é uma ciência.

Each language version is independently generated for its own context, not a direct translation.

Título: Medindo o que os Sistemas de IA Podem Fazer: Rumo a uma Ciência de Medição em IA

Autores: Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz.

1. O Problema

O artigo identifica uma lacuna fundamental na avaliação atual de Inteligência Artificial (IA). Embora termos como "capacidades", "propensões", "habilidades" e "valores" sejam onipresentes em relatórios técnicos, discursos regulatórios e debates públicos, eles são frequentemente usados de forma intercambiável e conflados com o desempenho observável (performance).

Falha Conceitual: As práticas dominantes (como benchmarks e testes de red-teaming) tratam o desempenho em conjuntos de dados específicos como uma medida direta de propriedades intrínsecas do sistema.
Consequência Prática: Um escore de precisão agregada (ex: 62,5% em um teste de matemática) não revela a estrutura causal do erro (se é devido à complexidade numérica, raciocínio multi-etapa, etc.). Isso obscurece a natureza real da propriedade que se pretende medir.
Risco de Generalização: Métodos atuais falham ao tentar avaliar sistemas que superam a capacidade humana ou em domínios onde o teste empírico é perigoso ou proibido (ex: criação de armas biológicas), pois dependem de dados observáveis e de julgamento humano.

2. Metodologia e Quadro Teórico

Os autores propõem uma mudança de paradigma baseada na filosofia da ciência, teoria da medição e ciência cognitiva. O núcleo da metodologia é redefinir capacidades e propensões como propriedades disposicionais.

Definição de Disposições

Uma propriedade disposicional é uma característica estável e intrínseca de um sistema, definida por relações contrafactuais entre condições contextuais e saídas comportamentais.

Exemplo Clássico: A fragilidade de um copo não é definida por ele estar quebrando agora, mas pela probabilidade de quebrar se submetido a uma certa força.
Aplicação à IA:
- Capacidades: Disposições que variam conforme a demanda ou dificuldade da tarefa (ex: complexidade simbólica, número de passos).
- Propensões: Disposições que variam conforme os incentivos ou contextos situacionais (ex: justificativa moral, pressão do usuário, sinais de supervisão).

O Processo de Medição Proposto

Para medir uma disposição, a metodologia exige quatro passos rigorosos, em contraste com a abordagem atual de "agregação de dados":

Definir o Sujeito: Especificar exatamente qual sistema está sendo medido (ex: modelo base vs. sistema implantado com filtros).
Hipotetizar a Base Causal: Identificar quais propriedades contextuais ( $\pi$ ) causam o comportamento de interesse.
Operacionalização Independente: Medir as propriedades contextuais de forma independente do desempenho do sistema (evitando circularidade).
Mapeamento Empírico: Variar sistematicamente as propriedades contextuais e mapear como a probabilidade do comportamento ( $p(v | \pi, \theta)$ ) muda, gerando uma "assinatura empírica" da disposição.

3. Contribuições Principais

O artigo oferece três contribuições fundamentais:

Definição Conceitual: Estabelece que capacidades e propensões são propriedades disposicionais baseadas em relações causais contrafactuais, e não meros registros de desempenho.
Crítica aos Métodos Atuais: Demonstra por que as práticas vigentes falham como ciência de medição:
- Benchmarks: Agregam desempenho em amostras de conveniência, sem identificar as bases causais da dificuldade.
- Red-teaming/Elicitação: Fornecem anedotas de falhas em regiões adversariais específicas, não medindo a propensão geral do sistema.
- Modelos Latentes (ex: IRT - Teoria de Resposta ao Item): Embora matematicamente sofisticados, são puramente baseados em dados. Eles inferem "dificuldade" e "habilidade" a partir de padrões de erro/sucesso, sem uma teoria independente sobre quais características da tarefa ou do sistema causam esses padrões. Isso viola a independência necessária para a medição de disposições.
Proposta de um Novo Framework: Esboça os requisitos para uma "ciência de medição de disposições", exigindo hipóteses causais explícitas, variáveis contextuais independentes e mapeamento de funções de resposta.

4. Resultados e Ilustrações

Os autores não apresentam novos dados empíricos, mas sim uma análise teórica e ilustrações conceituais ("toy examples") para validar o framework:

Ilustração de Capacidade (Aritmética): Em vez de um escore único, a medição deve gerar uma função de resposta que mostre como a probabilidade de acerto decai conforme o número de passos aritméticos ou o tamanho dos dígitos aumenta. Isso permite identificar limiares de falha e generalizar para problemas não testados.
Ilustração de Propensão (Honestidade): A medição deve mapear como a probabilidade de o sistema fornecer conselhos perigosos varia em função de fatores de incentivo (ex: quão urgente o usuário parece, se há justificativa moral). Diferente das capacidades (que podem ser monótonas), as propensões podem ter formas complexas e bidirecionais (ex: ser excessivamente honesto pode ser inseguro em certos contextos).

Resultado Crítico: Os métodos atuais produzem números que parecem medições, mas carecem de fundamentação teórica para representar propriedades disposicionais reais. Eles não permitem extrapolação para regimes de superinteligência ou contextos perigosos.

5. Significado e Impacto

O artigo é um manifesto para a maturação da avaliação de IA como uma disciplina científica rigorosa.

Mudança Cultural: Exige uma transição de uma cultura de "conveniência e benchmarking" para uma de "causalidade e teoria".
Segurança e Regulação: Para que os regulamentos e a segurança de IA sejam eficazes, é necessário medir o que os sistemas fariam em condições não observadas, e não apenas o que fizeram em testes passados. A medição de disposições permite essa extrapolação segura.
Interdisciplinaridade: A solução requer colaboração entre IA, ciência cognitiva, filosofia da ciência e psicometria para identificar as variáveis contextuais causais que estruturam o comportamento da IA.
Conclusão Final: Sem uma ciência de medição baseada em disposições, a avaliação de IA permanece um conjunto de convenções que não pode suportar a compreensão científica cumulativa nem garantir a segurança em domínios críticos. O caminho a seguir é construir instrumentos de medição que respeitem a natureza causal e contrafactual das capacidades e propensões da IA.