Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o chefe de uma grande empresa de descoberta de novos remédios. Você tem um orçamento limitado (dinheiro para testes de laboratório) e uma pilha gigante de candidatos (milhares de moléculas químicas). O seu objetivo é encontrar a "agulha no palheiro" — a molécula que realmente cura uma doença.

O problema é: testar cada uma dessas moléculas no laboratório custa milhares de dólares e leva muito tempo. Você não pode testar tudo. Você precisa de um "filtro" inteligente para escolher apenas as melhores 50 ou 100 para testar.

Recentemente, a inteligência artificial (IA) e os Grandes Modelos de Linguagem (LLMs, como o ChatGPT) ganharam fama de serem gênios na ciência. Mas como saber se eles realmente ajudam a escolher as melhores moléculas, ou se estão apenas "alucinando" (inventando coisas que parecem boas, mas não são)?

É aqui que entra este artigo, que criou um novo sistema de pontuação chamado BSDS (uma espécie de "Relatório de Desempenho Orçamentário").

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Caça ao Tesouro" com Regras Diferentes

Na ciência tradicional, os pesquisadores mediam o sucesso de uma IA apenas perguntando: "Quão boa foi a sua previsão geral?" (como uma nota de escola).

Mas na vida real, isso não funciona. Imagine que você tem um orçamento para comprar apenas 10 maçãs em um mercado com 10.000 frutas.

Se o vendedor te der 10 maçãs e 9 estiverem podres, ele foi um péssimo vendedor, mesmo que ele tenha acertado 90% das frutas que não eram maçãs.
Se ele te der 10 maçãs e 5 estiverem podres, ele foi mediano.
Se ele te der 10 maçãs e todas estiverem perfeitas, ele foi um gênio.

O artigo diz: "Não nos importa a nota geral. Nos importa: dentro do nosso orçamento limitado, quantas 'vitórias' reais nós encontramos?"

Além disso, o sistema considera dois custos:

O custo do erro (Falso Positivo): Gastar dinheiro testando uma molécula que não funciona.
O custo da omissão (Não escolher): Deixar de testar uma molécula que poderia ter funcionado.

2. A Solução: O "Medidor de Qualidade de Descoberta" (BSDS)

Os autores criaram uma fórmula matemática (verificada por um computador super-rigoroso, como um juiz infalível) que dá uma nota para cada estratégia de seleção.

Se você escolher muitas coisas ruins: Sua nota cai (penalidade por erro).
Se você for muito "medroso" e não escolher nada: Sua nota também cai (penalidade por não tentar).
O objetivo: Encontrar o equilíbrio perfeito onde você pega o máximo de "vitórias" gastando o mínimo de dinheiro.

3. O Grande Teste: IA vs. IA "Clássica"

Os pesquisadores testaram 39 estratégias diferentes para ver quem era o melhor "caçador de tesouros" para encontrar remédios contra o HIV. Eles dividiram os competidores em três grupos:

O "Veterano" (ML Clássico): Um sistema de IA mais simples e antigo (Random Forest), que já foi treinado com milhões de dados. É como um caçador experiente que conhece o terreno.
Os "Gênios" (LLMs Modernos): Modelos como ChatGPT, Claude, Gemini, etc. Eles podem escrever poemas, resolver problemas de lógica e "conversar" sobre química.
Os "Híbridos": Tentativas de misturar os dois.

O Resultado Surpreendente:

O Veterano Venceu: O sistema simples e clássico (o "Veterano") foi o melhor de todos. Ele encontrou mais remédios potenciais com o mesmo orçamento.
Os Gênios (LLMs) Perderam: Quando os modelos modernos de linguagem tentaram escolher as moléculas sozinhos (apenas lendo a fórmula química), eles foram pior do que o acaso. Eles pareciam confiantes, mas estavam errados.
A "Revisão" não ajudou: Mesmo quando os pesquisadores pediram para os LLMs apenas "revisar" a lista que o Veterano fez (para ver se podiam melhorar a escolha), eles pioraram o resultado. Foi como pedir para um crítico de cinema que nunca viu o filme tentar reorganizar a lista de melhores filmes de um especialista; ele só estragou a ordem.

4. A Lição Principal: "Não tente reinventar a roda"

A descoberta mais importante é que, para tarefas muito específicas e técnicas (como escolher moléculas para um remédio), os modelos de IA modernos (LLMs) não têm vantagem sobre os modelos tradicionais de IA quando o orçamento é curto.

Os LLMs são ótimos em conversar, criar histórias e raciocinar de forma geral. Mas, quando precisam de precisão cirúrgica em dados químicos específicos, eles tendem a "alucinar" (inventar fatos) ou perder o foco. O modelo antigo, que foi treinado especificamente para aquela tarefa, ainda é o rei.

5. Por que isso importa para você?

Este artigo é como um manual de sobrevivência para empresas. Ele diz:

"Não gaste milhões de dólares tentando substituir seus sistemas de IA antigos e confiáveis por modelos de linguagem modernos apenas porque estão na moda. Se o seu objetivo é economizar dinheiro e encontrar resultados reais, o sistema 'chato' e especializado ainda é o melhor."

Além disso, eles criaram uma nova régua de medição (o BSDS) que pode ser usada em qualquer lugar onde você precisa escolher coisas com orçamento limitado: desde escolher quais carros autônomos testar em situações de risco até selecionar candidatos para ensaios clínicos.

Resumo em uma frase:
Os pesquisadores criaram uma nova maneira de medir quem é o melhor em "caçar" resultados com pouco dinheiro, e descobriram que, para tarefas científicas difíceis, a IA antiga e especializada ainda ganha dos "gênios" de conversação modernos.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A descoberta científica moderna (como a triagem de fármacos e a priorização de cenários de segurança em veículos autônomos) depende cada vez mais de sistemas de IA para selecionar candidatos para validação experimental, que é um processo caro e demorado. No entanto, existe uma lacuna crítica na avaliação dessas estratégias de seleção:

Falta de Métricas Orçamento-Conscientes: Métricas padrão de classificação (como AUROC, F1) integram o desempenho sobre todos os pontos de operação, obscurecendo a eficácia real em orçamentos específicos (ex: testar apenas 500 de 40.000 compostos).
Custos Assimétricos de Erro: Um falso positivo desperdiça recursos experimentais caros, enquanto um falso negativo representa um custo de oportunidade difícil de quantificar. Métricas existentes não modelam adequadamente essa assimetria.
Avaliação de LLMs: Grandes Modelos de Linguagem (LLMs) geram propostas científicas plausíveis, mas não há um framework principial para avaliar se eles agregam valor real além de pipelines de ML existentes, especialmente sob restrições de orçamento e custos de erro desiguais.
Ausência de Garantias Formais: Não existem métricas de avaliação com verificações formais de correção matemática para garantir que a métrica não seja manipulável ou paradoxal.

2. Metodologia e Framework

Os autores propõem o BSDS (Budget-Sensitive Discovery Score) e sua forma agregada, o DQS (Discovery Quality Score).

Definição do BSDS

O BSDS é uma métrica que penaliza simultaneamente descobertas falsas e abstenção excessiva em cada nível de orçamento ( $B$ ). A fórmula é definida como:
$\text{BSDS}(B) = \text{HR@B} - \lambda \cdot \text{FDR@B} - \gamma \cdot (1 - \text{Cov@B})$
Onde:

HR@B (Hit Rate): Taxa de recuperação de verdadeiros positivos dentro do orçamento.
FDR@B (False Discovery Rate): Fração de falsos positivos na seleção.
Cov@B (Coverage): Fração de candidatos que recebem uma decisão definitiva (selecionados ou rejeitados), em oposição a serem abstenidos.
$\lambda$ (Penalidade de Falso Positivo): Custo relativo de um erro de validação.
$\gamma$ (Penalidade de Abstenção): Custo de oportunidade de não avaliar um candidato.

Verificação Formal

Uma contribuição central é que o framework foi verificado formalmente usando o assistente de prova Lean 4. Os autores provaram 20 teoremas (verificados por máquina) que garantem propriedades como:

Limitação (Boundedness): A métrica está sempre em um intervalo calibrado.
Compatibilidade de Incentivos: Melhorar a precisão ou a recuperação nunca reduz a pontuação BSDS.
Domínio do Oráculo: O propositor ideal (que seleciona todos os positivos verdadeiros primeiro) sempre obtém a pontuação máxima.
Abstenção Otimizada de Bayes: Define uma regra de decisão computável para quando um modelo deve abster-se em vez de adivinhar.

Configuração Experimental

Conjunto de Dados: MoleculeNet HIV (41.127 compostos, 3,5% ativos) como caso principal, com validação em Tox21, ClinTox, MUV-466, SIDER e um domínio de segurança de veículos autônomos (AV Safety).
Propositores Avaliados: 39 estratégias distintas, incluindo:
- Baselines: Seleção aleatória e Greedy-ML (Random Forest treinado).
- Ablações Mecanísticas: Variantes que simulam raciocínio de LLMs (busca por similaridade, priores de conhecimento, geração estocástica).
- LLMs: 7 modelos de ponta (ChatGPT-5.2, Claude, Gemini, etc.) em modos Zero-shot e Few-shot (k=3), tanto na avaliação direta (SMILES) quanto no reranking (reordenamento das previsões do ML).
Método: 1.000 replicatas de bootstrap para estimar intervalos de confiança robustos.

3. Principais Resultados

O Baseline Simples (RF) Supera Tudo:
- O propositores Greedy-ML (baseado em Random Forest com top-B simples) obteve o melhor DQS (-0,046), superando todas as variantes de MLP e todas as configurações de LLM.
- Adicionar camadas de reordenamento (reranking) via MLP ou LLM degradou o desempenho do modelo base, indicando que a IA generativa adicionou ruído em vez de sinal ortogonal.
LLMs Não Adicionam Valor Marginal (Neste Cenário):
- Nenhum LLM (zero-shot ou few-shot) superou o baseline Greedy-ML nos conjuntos de dados HIV ou Tox21.
- No modo Direct (apenas SMILES), os LLMs performaram perto do acaso (DQS negativo profundo), falhando em extrair sinais discriminativos da notação química sem treinamento prévio específico.
- No modo Rerank, os LLMs melhoraram ligeiramente em relação ao modo direto, mas ainda ficaram abaixo do modelo de ML puro.
Ablações Revelam Limitações de Otimização:
- Estratégias que tentaram otimizar diretamente a função de perda BSDS (como BSDS-Recursive, um MLP treinado para maximizar BSDS) tiveram desempenho inferior ao Greedy-ML.
- Isso sugere que o espaço de características limitado (10 dimensões) e a aproximação diferenciável da seleção discreta não superam a capacidade discriminativa nativa do Random Forest com fingerprints ECFP4.
Generalização Robusta:
- A hierarquia de propositores (RF > LLMs > Aleatório) generalizou-se através de 5 benchmarks do MoleculeNet (com prevalências variando de 0,18% a 46,2%) e para o domínio de segurança de veículos autônomos.
- A hierarquia é estável frente a diferentes parâmetros de penalidade ( $\lambda, \gamma$ ), com correlação de Kendall $\tau \ge 0,636$ em uma grade de 63 combinações de parâmetros.
Métricas Tradicionais são Cegas:
- Sete propositores diferentes (incluindo o RF e várias ablações) compartilharam valores idênticos de AUROC e Fator de Enriquecimento (EF), mas apresentaram DQS drasticamente diferentes. O BSDS/DQS consegue capturar trade-offs entre precisão, recall e abstenção que métricas padrão ignoram.

4. Contribuições Chave

Framework de Avaliação Formalmente Verificado: O primeiro framework de métrica de descoberta científica com 20 teoremas verificados por máquina (Lean 4), garantindo que a métrica seja matematicamente correta e livre de paradoxos.
Avaliação Abrangente de LLMs na Descoberta de Fármacos: Um estudo rigoroso que demonstra que, no cenário realista de "melhoria de um pipeline existente", os LLMs atuais não superam classificadores tradicionais treinados (Random Forest) para seleção de candidatos.
Métrica Sensível ao Orçamento (DQS): Uma estatística de resumo única que impede a "cherry-picking" de orçamentos específicos para inflar artificialmente o desempenho.
Validação Trans-Domínio: Demonstração de que o framework é aplicável não apenas à química, mas também a cenários de segurança crítica (veículos autônomos), validando sua utilidade geral para problemas de seleção sob restrições de recursos.

5. Significado e Conclusão

O artigo estabelece um novo padrão para a avaliação de sistemas de IA na descoberta científica. A conclusão principal é que, para tarefas de triagem de alto volume com dados estruturados (como fingerprints moleculares), modelos de ML tradicionais e bem calibrados ainda superam os LLMs quando estes são usados como "caixas pretas" sem acesso a ferramentas especializadas ou raciocínio estruturado (Chain-of-Thought).

O framework BSDS/DQS fornece a ferramenta necessária para que pesquisadores e empresas saibam com certeza se uma nova estratégia de IA agrega valor real ou apenas ruído, considerando os custos reais de falha e as limitações orçamentárias do mundo real. O trabalho sugere que o futuro da aplicação de LLMs na ciência deve focar em raciocínio estruturado, RAG (Retrieval-Augmented Generation) com bases de dados químicas e ferramentas de simulação, em vez de apenas tentar prever atividades diretamente a partir de texto.

Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

1. O Problema: A "Caça ao Tesouro" com Regras Diferentes

2. A Solução: O "Medidor de Qualidade de Descoberta" (BSDS)

3. O Grande Teste: IA vs. IA "Clássica"

4. A Lição Principal: "Não tente reinventar a roda"

5. Por que isso importa para você?

1. O Problema

2. Metodologia e Framework

Definição do BSDS

Verificação Formal

Configuração Experimental

3. Principais Resultados

4. Contribuições Chave

5. Significado e Conclusão

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank