Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Este trabalho apresenta o DBench-Bio, um benchmark dinâmico e totalmente automatizado que avalia a capacidade de modelos de linguagem grandes de descobrir novos conhecimentos biológicos, superando as limitações de contaminação de dados e obsolescência dos conjuntos de avaliação estáticos existentes.

Chaoqun Yang, Xinyu Lin, Shulin Li, Wenjie Wang, Ruihan Guo, Fuli Feng, Tat-Seng Chua

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT, são como super-estudantes que leram quase todos os livros da biblioteca do mundo até uma certa data. Eles são incríveis em responder perguntas sobre o que já foi escrito, como um aluno que decora o livro didático e tira nota 10 na prova.

Mas, e se a pergunta for sobre algo que ainda não foi escrito? Algo descoberto ontem, que nem o professor do aluno viu ainda? É aí que entra este novo estudo.

Os autores criaram um "exame surpresa" chamado DBench-Bio para testar se esses super-estudantes conseguem realmente descobrir novas coisas ou se eles apenas estão "chutando" baseado no que já leram.

Aqui está a explicação do papel, traduzida para o dia a dia:

1. O Problema: O "Vazamento" da Prova

Imagine que você quer testar a inteligência de um aluno. Você pega um livro de ciências de 2023 e faz perguntas sobre ele. O problema é que, se o aluno já leu esse livro antes de fazer o teste (durante seus estudos), ele não está "pensando" de verdade; ele está apenas lembrando da resposta.

No mundo da Inteligência Artificial, isso é chamado de "contaminação de dados". Como os modelos são treinados com dados da internet, eles podem ter "lido" as respostas dos testes antigos sem nem perceber. Isso faz parecer que eles são gênios, quando na verdade são apenas ótimos em memorização.

2. A Solução: O "Exame Surpresa Mensal"

Para resolver isso, os pesquisadores criaram o DBench-Bio. Pense nele como um serviço de assinatura de provas novas que chega todo mês.

  • Como funciona? Eles pegam os artigos científicos mais recentes (de revistas de biologia de altíssimo nível) que foram publicados depois que o modelo de IA foi criado.
  • A Regra de Ouro: O modelo nunca viu essas informações antes. Se ele acertar, é porque ele realmente entendeu o problema e descobriu a resposta. Se errar, é porque ele não consegue aprender coisas novas sozinho.

3. Como eles criaram esse "Exame"? (A Fábrica Automática)

Fazer um teste desses manualmente seria como tentar escrever um livro novo todo mês sozinho: demorado e caro. Então, eles usaram a própria IA para criar o teste, em três etapas:

  1. Coleta de Matéria-Prima: Eles vasculharam as revistas científicas mais sérias do mundo (as "Olimpíadas da Biologia") e pegaram apenas os resumos de artigos novos.
  2. Criação das Perguntas: Eles pediram para uma IA inteligente ler esses resumos e transformar a descoberta científica em uma pergunta e uma resposta.
    • Exemplo: Em vez de perguntar "Qual é a fórmula da água?", a IA cria: "Como a proteína X regula a doença Y?" (algo que só foi descoberto no artigo novo).
  3. O Fiscal de Qualidade: Outra IA (agindo como um fiscal rigoroso) revisa essas perguntas para garantir que elas fazem sentido, são claras e realmente tratam do ponto principal da descoberta, e não de detalhes chatos.

4. O Que Eles Descobriram? (O Resultado da Prova)

Quando eles testaram os modelos mais modernos (como GPT-5, Gemini, etc.) nesse novo exame, a notícia não foi tão boa quanto esperávamos:

  • Memória vs. Descoberta: Os modelos são ótimos em "relembrar" o que já sabem (como um dicionário vivo), mas fracassam miseravelmente quando precisam descobrir algo novo. É como ter um carro de Fórmula 1 que corre muito em pista seca, mas para de funcionar na primeira poça de água.
  • O "Pulo do Gato" não funciona: Tentar usar ferramentas de busca na internet (como um "Google" para a IA) não ajudou muito. A IA muitas vezes ignora a busca e responde baseada no que já sabe, mesmo que esteja errado.
  • Onde eles travam? Eles têm muita dificuldade em áreas que exigem matemática complexa e biologia computacional.
  • Erros Comuns:
    • Alucinação Confiante: A IA inventa uma explicação que parece lógica, mas é totalmente falsa, e diz com 100% de certeza que é verdade.
    • Resposta Genérica: Em vez de dar a resposta específica do artigo novo, ela dá uma resposta de "livro didático" que é verdadeira em geral, mas não responde à pergunta específica.
    • Recusa: Às vezes, a IA diz "não sei" e para por aí, em vez de tentar deduzir.

5. A Conclusão: O Que Isso Significa para o Futuro?

O estudo nos diz que, embora as IAs sejam incríveis em organizar o conhecimento humano existente, elas ainda não são cientistas autônomos. Elas não conseguem, sozinhas, fazer a "ponte" para o desconhecido.

A Grande Metáfora Final:
Imagine que a IA é um chef de cozinha que conhece todas as receitas do mundo até 2024. Se você pedir para ele fazer um prato novo usando ingredientes que ninguém nunca viu antes, ele vai tentar misturar as receitas antigas e vai criar um prato estranho ou dizer que não sabe.

O DBench-Bio é o teste que mostra que, para a IA se tornar um verdadeiro "cientista" capaz de descobrir novas curas ou leis da física, ela precisa aprender a pensar e raciocinar sobre o novo, e não apenas memorizar o velho.

Os autores deixaram esse "exame" disponível para a comunidade científica usar e melhorar, para que, no futuro, possamos ter IAs que realmente nos ajudem a descobrir o desconhecido.