Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

O artigo apresenta o XpertBench, um novo benchmark de alto nível composto por 1.346 tarefas autênticas de especialistas em 80 categorias profissionais e avaliadas por meio de rubricas detalhadas e do método ShotJudge, que revela uma lacuna significativa de desempenho (~66% de taxa de sucesso no máximo) nas atuais Grandes Modelos de Linguagem ao lidar com cognição de nível especializado.

Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

Publicado 2026-04-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está testando a inteligência de um novo funcionário. Até agora, os testes que usamos para avaliar Inteligência Artificial (IA) eram como provas de múltipla escolha de um vestibular: perguntas com uma única resposta certa, focadas em memorização de fatos.

O problema? As IAs estão ficando tão boas em "decoreba" que tiram nota máxima nessas provas, mas quando você as coloca em uma situação real de trabalho — onde não há gabarito, as regras são confusas e você precisa tomar decisões complexas — elas falham miseravelmente.

É aí que entra o XpertBench.

O Que é o XpertBench?

Pense no XpertBench não como uma prova de escola, mas como um simulado de "Dia de Trabalho Real" para IAs.

A equipe do ByteDance (uma gigante da tecnologia) criou este novo teste para ver se as IAs conseguem realmente agir como especialistas humanos em áreas difíceis, como medicina, direito, finanças e educação.

Como eles fizeram isso? (A Receita do Sucesso)

  1. Os "Mestres" (Especialistas Reais):
    Eles não pediram para a IA criar as perguntas. Eles contrataram mais de 1.000 especialistas reais: médicos, advogados, pesquisadores de universidades de elite e profissionais de finanças. Imagine que você contratou os melhores chefs do mundo para criar um menu de teste, em vez de pedir para um robô inventar receitas.

  2. As Tarefas (O Desafio):
    Em vez de perguntar "Qual é a capital da França?", eles deram tarefas como:

    • Finanças: "Analise dois gigantes da aviação militar e diga qual tem mais chances de crescer nos próximos 5 anos, baseado em dados reais."
    • Direito: "Uma empresa assinou um contrato estranho. É um empréstimo ou uma venda de dívida? Quem é responsável se der errado?"
    • Educação: "Crie um plano de aula completo para ensinar matemática a crianças com dificuldades, usando jogos interativos."

    São tarefas abertas, longas e cheias de detalhes, exatamente como um profissional enfrentaria no escritório.

  3. A "Chave de Julgamento" (O Rubricas):
    Como você avalia se uma resposta de IA é boa em algo subjetivo? Eles criaram checklists super detalhados (chamados de rubricas).

    • Imagine que um juiz de culinária não diz apenas "está bom". Ele tem uma lista: "O sal está no ponto? A carne está no tempo certo? O prato está bonito?".
    • Cada tarefa no XpertBench tem entre 15 a 40 pontos de verificação. A IA só ganha pontos se cumprir cada um desses critérios específicos.
  4. O "Juiz" (ShotJudge):
    Avaliar tudo isso manualmente levaria anos. Então, eles criaram um sistema inteligente chamado ShotJudge.

    • Pense nele como um estagiário muito bem treinado. Ele não julga sozinho; ele olha para exemplos de como os especialistas humanos avaliaram tarefas passadas e aprende a pensar como eles.
    • Isso evita que a IA se elogie sozinha (um problema comum onde a IA acha que sua resposta é ótima só porque soa bem).

O Que Eles Descobriram? (A Realidade)

Os resultados foram um choque de realidade para o mundo da tecnologia:

  • O Teto de Vidro: Mesmo as IAs mais avançadas do mundo (como as da OpenAI e Anthropic) tiraram, em média, apenas 55% de nota. A melhor delas chegou a 66%. Isso significa que, em tarefas de nível de especialista, elas ainda falham em mais da metade dos casos.
  • Especialistas "Parciais": Nenhuma IA é um "super-herói" em tudo.
    • Uma IA pode ser um gênio em Finanças (tirando 84% de nota), mas ser medíocre em Ciências Exatas (42%).
    • Outra pode ser ótima em Direito e Humanidades, mas travar em Medicina.
    • Analogia: É como ter um médico que é o melhor cirurgião do mundo, mas não sabe prescrever um remédio simples. Você não pode confiar nele para tudo.
  • Alucinações e Erros: As IAs muitas vezes não erram por falta de informação, mas por confusão lógica. Elas podem começar a raciocinar errado no primeiro parágrafo e continuar errando até o fim, ou se distrair com informações inúteis da internet.

Por Que Isso Importa?

O XpertBench nos diz que a era das IAs como "assistentes gerais" que sabem tudo está chegando ao fim. Para usarmos IAs em hospitais, escritórios de advocacia ou bancos, precisamos de modelos que sejam especialistas reais, não apenas bons em responder perguntas de teste.

Este novo teste é como um termômetro de precisão que nos mostra exatamente onde a tecnologia ainda precisa amadurecer antes de podermos confiar nela com nossas vidas e economias.

Resumo da Ópera:
O XpertBench é o teste de "estrada" para IAs. Até agora, elas eram ótimas em dirigir em pistas de corrida vazias (provas de múltipla escolha). Agora, colocamos elas no trânsito caótico da cidade (trabalho real) e descobrimos que, embora sejam boas motoristas, ainda precisam de muito mais treino para serem motoristas profissionais de verdade.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →