LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

O artigo apresenta o LABBench2, uma evolução do benchmark LAB-Bench composta por quase 1.900 tarefas em contextos mais realistas para medir as capacidades de sistemas de IA na realização de trabalho científico útil, demonstrando que, embora os modelos atuais tenham melhorado, ainda existe um grande espaço para avanços devido ao aumento significativo da dificuldade das tarefas.

Jon M Laurent, Albert Bou, Michael Pieler, Conor Igoe, Alex Andonian, Siddharth Narayanan, James Braza, Alexandros Sanchez Vassopoulos, Jacob L Steenwyk, Blake Lash, Andrew D White, Samuel G Rodriques

Publicado 2026-04-14
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que a Inteligência Artificial (IA) é como um estagiário superinteligente que acabou de se formar na faculdade de biologia. Ele leu todos os livros didáticos, decorou todas as fórmulas e sabe responder qualquer pergunta de prova de múltipla escolha.

O problema é: ele nunca entrou de verdade em um laboratório.

Até agora, os testes para medir o quão bom esse estagiário era (chamado de LAB-Bench) eram como um "simulador de voo" muito simples. O estagiário recebia a pergunta, a resposta certa estava escondida em uma imagem que ele via na tela, e ele tinha que escolher a opção A, B ou C. Era fácil para a IA "adivinhar" ou usar truques, e muitos modelos já estavam tirando notas perfeitas nesses testes.

O que é o LABBench2?

Os autores deste artigo criaram o LABBench2, que é como tirar o estagiário do simulador e jogá-lo no laboratório real, com toda a bagunça e complexidade do mundo real.

Em vez de um teste de múltipla escolha, agora o estagiário precisa:

  1. Caçar informações: Em vez de receber o livro aberto, ele precisa saber qual livro procurar na biblioteca gigante da internet, baixar o PDF, achar a tabela específica dentro de 50 páginas e ler os dados.
  2. Ler "letras miúdas": Ele precisa entender não só o artigo principal, mas também os anexos (suplementos), que são cheios de planilhas confusas e gráficos mal formatados.
  3. Avaliar a qualidade: Ele precisa julgar se um estudo científico é confiável ou se foi feito de qualquer jeito, sem uma lista de verificação pronta para seguir.
  4. Resolver problemas reais: Se um protocolo de laboratório der errado (ex: "a bactéria morreu"), ele precisa olhar o manual, achar onde o cientista errou (talvez a temperatura estava errada) e corrigir.
  5. Trabalhar com arquivos: Em vez de colar o texto da sequência de DNA na pergunta, ele precisa saber abrir um arquivo de computador, ler o código e manipular isso.

O que aconteceu quando eles testaram os robôs?

Aqui está a parte divertida (e um pouco triste para os robôs):

  • A dificuldade subiu muito: Quando os mesmos robôs que tiravam nota 9,5 no teste antigo foram colocados no LABBench2, suas notas caíram drasticamente (entre 26% e 46% de menos). É como se um aluno que tirava 10 em "Matemática Básica" fosse para "Engenharia Civil" e não soubesse nem calcular a carga de uma viga.
  • Ferramentas ajudam, mas não resolvem tudo: Quando deram ao estagiário um "Google" e um "programa de computador" para ajudar, ele ficou melhor em achar os livros. Mas, assim que precisou ler o que estava escrito dentro do livro ou entender um gráfico complexo, ele travou.
  • O "pulo do gato" é a precisão: Em biologia, um erro de uma letra no código de DNA pode destruir tudo. Os robôs ainda são muito "desastrados" em lidar com textos longos e exatos. Eles entendem a ideia, mas erram na execução.

A Analogia Final

Pense no LAB-Bench antigo como um jogo de "Quem quer ser Milionário?" onde o robô podia usar o "pulo do amigo" (ferramentas de busca) e tinha as opções de resposta na tela.

O LABBench2 é como colocar o robô no chão de uma fábrica de remédios.

  • Ele não tem as opções de resposta.
  • Ele tem que procurar o manual antigo na prateleira empoeirada.
  • Ele tem que entender se a receita está escrita em um papel amassado ou em uma planilha de Excel quebrada.
  • Se ele errar uma vírgula na receita, o remédio não funciona.

Conclusão Simples

O LABBench2 é um aviso importante para a comunidade de tecnologia: Nossa IA ainda não está pronta para trabalhar sozinha na ciência. Ela é ótima em conversar e lembrar fatos, mas ainda precisa de muito treinamento para fazer o trabalho "sujo" e real de um cientista: pesquisar, analisar dados brutos, entender contextos complexos e não cometer erros bobos.

O objetivo dos criadores é usar esse teste difícil para ensinar os robôs a serem melhores, até que um dia eles possam realmente ajudar a descobrir novos remédios e curas sem precisar de um humano segurando a mão o tempo todo.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →